[지디넷코리아]

엔비디아(NVIDIA)와 메사추세츠대학교(UMass Amherst) 연구진이 자연어 명령만으로 3D 공간 내 물체를 정교하게 재배치할 수 있는 3D-Layout-R1 프레임워크를 공개했다. 이 시스템은 기존 언어 모델이 “의자를 소파와 나란히 놓아라”는 명령을 받으면 물체끼리 겹치거나 허공에 떠 있는 결과를 만들던 문제를 해결했다. 핵심은 각 단계를 투명하게 기록하는 구조화된 추론 방식이다. 마치 레고 조립 설명서처럼 “1단계: 의자를 책상 앞에 배치, 2단계: 침대를 책상 뒤로 이동”처럼 중간 과정을 단계별로 추론하면서 최종 배치에 도달한다.

그림 1. 3D-Layout-R1의 다단계 공간 배치 추론 과정
기존 AI가 공간을 엉망으로 만드는 이유
챗GPT(ChatGPT)나 제미나이(Gemini) 같은 언어 모델에게 “거실 가구를 재배치해줘”라고 요청하면, 그럴듯한 설명은 내놓지만 실제로는 소파가 테이블을 관통하거나 의자가 벽 밖으로 튀어나가는 배치를 제안한다. 이들은 공간 관계를 말로는 이해하지만, 물리 법칙을 따르는 구체적인 좌표 계산에는 약하기 때문이다. 마치 지도를 읽을 줄은 알지만 실제로 그 길을 걸어본 적은 없는 사람처럼, 추상적 이해와 실제 실행 사이에 큰 간극이 존재한다.
기존 방식은 두 가지로 나뉜다. 첫 번째는 AI가 “의자를 옮겨야 할 것 같아요”라고 대략적인 계획만 세우고, 별도의 프로그램이 실제 좌표를 계산하는 방식이다. 문제는 AI의 생각이 너무 모호해서 계산 프로그램이 제대로 된 결과를 만들어내기 어렵다는 점이다. 두 번째는 AI가 한 번에 최종 결과를 예측하는 방식인데, “먼저 상자를 옮기고, 그 다음 책 옆에 램프를 놓아라” 같은 여러 단계가 필요한 작업에서는 중간 과정을 관리하지 못해 실패한다. 결국 기존 시스템은 복잡한 공간 편집 명령을 제대로 수행하지 못했다.
투명한 설계도가 AI를 똑똑하게 만든다
3D-Layout-R1의 핵심은 장면 그래프(Scene Graph)라는 투명한 중간 표현이다. 이는 방 안의 모든 물체를 카드 목록처럼 정리한 것이다. 각 카드에는 물체 이름, 정확한 위치, 크기, 회전 각도가 적혀 있다. 기존 AI가 “의자를 어딘가로 옮겨야 할 것 같은데, 아마도 테이블 근처쯤?”이라고 두루뭉술하게 말하는 대신, 3D-Layout-R1은 JSON과 같은 형태로 좌표를 명시적으로 수정 한다.
이 방식의 장점은 각 단계를 즉시 확인할 수 있다는 점이다. 만약 2단계에서 침대가 의자와 겹친다면, 3단계로 넘어가기 전에 바로 문제를 발견하고 수정할 수 있다. 마치 요리할 때 레시피를 한 단계씩 따라가며 맛을 보는 것과 비슷하다. 기존 방식은 모든 재료를 한꺼번에 냄비에 넣고 나서야 맛이 이상하다는 걸 깨닫는 반면, 새로운 방식은 재료를 하나씩 넣으며 계속 확인한다.
연구진은 DeepSeek-R1을 활용해 추론 트레이스를 생성한 1만 5천 개 데이터셋을 만들었다. 각 데이터에는 처음 상태, 자연어 명령, 단계별 카드 수정 내역, 최종 목표 상태가 포함된다. 세 가지 연습 과제를 준비했다. 첫 번째는 물체를 크기와 모양으로 분류한 뒤 일렬로 정렬하는 ‘정렬 과제’다. 두 번째는 무작위로 흐트러진 물체를 원래의 깔끔한 격자 구조로 되돌리는 ‘공간 정렬 과제’다. 세 번째는 “보라색 침대를 책상 뒤에 놓되, 침대는 책상으로부터 정확히 팔 길이만큼 떨어뜨려라” 같은 복잡한 조건을 동시에 만족시키는 ‘방 편집 과제’다.
게임처럼 점수를 매기며 물리 법칙을 배운다
구조화된 추론만으로는 부족하다. AI가 카드를 올바른 형식으로 작성하더라도, 실제 위치가 부정확하거나 물체끼리 겹칠 수 있다. 이를 해결하기 위해 연구진은 강화학습을 적용했다. 이는 게임 플레이어에게 점수를 주며 학습시키는 방식과 같다. AI가 물체를 배치할 때마다 세 가지 기준으로 점수를 매긴다.
첫 번째 기준은 ‘목표 일치도’다. AI가 놓은 의자가 정답 위치와 얼마나 겹치는지 측정한다. 마치 다트 게임에서 과녁 중앙에 가까울수록 높은 점수를 주는 것과 같다. 두 번째 기준은 ‘충돌 방지’다. 의자가 테이블을 관통하거나 벽 안으로 파고들면 감점한다. 세 번째 기준은 ‘형식 준수’다. AI의 답변이 제대로 된 카드 형식으로 작성됐는지 확인한다.
이 세 가지 점수를 합산해 AI에게 피드백을 준다. 처음에는 서툴지만, 수천 번 반복하며 점점 높은 점수를 받는 배치 방법을 학습한다. 마치 농구 선수가 슛 연습을 반복하며 골대 감각을 익히듯, AI도 어떤 배치가 물리적으로 타당하고 명령을 정확히 따르는지 체득한다. 이 과정을 거친 모델은 기존보다 훨씬 정확한 위치에 물체를 배치하고, 충돌 없는 완벽한 레이아웃을 만들어낸다.
작은 모델이 거대 AI를 이긴 이유
정렬 과제에서 3D-Layout-R1은 최신 모델의 성능을 IoU 기준으로 약 20% 정도 향상된 성능을 보였다. 더 중요한 점은 충돌이 거의 없었다는 것이다. 기존 모델들이 만든 배치에서는 물체 5개 중 1~2개가 다른 물체와 겹쳤지만, 새 모델은 모든 물체가 깔끔하게 분리됐다.
공간 정렬 과제는 더 까다롭다. 무작위로 흩어진 물체를 보고 원래 있어야 할 자리를 추론한 뒤 되돌려놓아야 한다. 제미나이 2.5 프로는 물체 10개 중 7~8개를 대략적인 위치로 복원했다. 3D-Layout-R1은 9개 이상을 정확한 격자 위치에 맞춰 배치했다. 흥미로운 점은 훨씬 작은 모델이 대형 상용 모델을 이긴다는 사실이다. 엔비디아 연구진이 훈련시킨 소형 모델도 경쟁력 있는 성능을 보였다는 것이다. 이는 모델 크기보다 추론 구조가 더 중요하다는 증거다.
방 편집 과제에서는 차이가 더 극명했다. 제미나이나 딥시크는 물체 3개 중 1~2개를 대략적인 위치에 놓는 수준이었다. 3D-Layout-R1은 더 높은 정확도로 물체를 배치했다. 특히 “의자는 책상으로부터 팔 두 뼘 정도 떨어뜨려라” 같은 거리 제약까지 정확히 지켰다. 더 놀라운 점은 단순히 강화학습만 적용하면 오히려 성능이 제한적이라는 발견이다. 구조화된 단계별 추론을 먼저 가르치고, 그 위에서 강화학습으로 미세 조정하는 2단계 전략이 핵심이었다.

그림 6. 실제 로봇을 이용한 테이블 위 물체 재배치 및 집기-놓기 작업
창고에서 거실까지, 한 번 배우면 어디서나 통한다
연구진은 실제 로봇 팔로도 가능성을 확인했다. 카메라가 테이블 위 물체를 촬영하면, 3D-Layout-R1이 “노란 컵을 노란 그릇에 넣어라”는 명령을 해석해 목표 배치를 생성한다. 그러면 로봇 제어 프로그램이 그 배치를 따라 팔을 움직여 작업을 완수했다. AI는 로봇 동작을 직접 배운 적이 없지만, 명확한 목표를 제시하는 것만으로도 기존 로봇 시스템과 협업할 수 있었다.
더 흥미로운 점은 창고 시뮬레이션 실험이다. 연구진은 창고 데이터로 모델을 재훈련하지 않았다. 그런데도 “상자를 높이 순으로 정렬하고, 팔레트가 가장 적은 구역에 배치하라”는 실무 지시를 정확히 따랐다. 이는 구조화된 추론이 특정 환경에만 맞춰진 것이 아니라, 장면 그래프라는 범용적 표현 덕분에 새로운 상황에도 적응한다는 증거다. 식당 주방에서 일하던 요리사가 카페 주방에서도 레시피만 보면 요리할 수 있는 것과 비슷하다.
다만 한계도 있다. 물체 이름이 없거나 위치 정보가 부정확한 상황에서는 시각 정보를 함께 처리하는 비전-언어 모델이 텍스트만 다루는 모델보다 훨씬 나았다. 이는 불완전한 정보를 이미지로 보완하는 능력이 중요하다는 뜻이다. 또한 대형 비전-언어 모델을 훈련시켰을 때 기대만큼 성능이 오르지 않았는데, 이는 시각 정보를 활용하는 방식 자체를 개선해야 한다는 과제를 남긴다.
중간 단계를 보여주는 AI가 신뢰받는다
3D-Layout-R1이 보여주는 핵심 교훈은 ‘중간 단계를 투명하게 만들면 AI가 더 똑똑해진다’는 것이다. 기존 방식은 AI의 사고 과정이 블랙박스처럼 감춰져 있어서, 뭔가 잘못됐을 때 어디서부터 고쳐야 할지 알 수 없었다. 새로운 방식은 각 단계를 명확한 카드 수정으로 기록하기 때문에, 2단계에서 실수했다면 2단계만 다시 고치면 된다. 이는 의료 진단이나 법률 자문처럼 추론 과정을 설명해야 하는 분야에도 적용 가능한 원리다.
또 다른 교훈은 ‘기초 훈련과 실전 최적화를 분리하라’는 것이다. 처음부터 강화학습으로 모든 것을 학습시키려 하면 방향을 잃는다. 먼저 구조화된 추론으로 기본기를 다지고, 그 위에서 점수 기반 학습으로 다듬는 2단계 전략이 효과적이다. 이는 언어 학습에서 문법을 먼저 배우고 대화 연습으로 유창성을 높이는 과정과 비슷하다.
남은 질문은 이 방법이 얼마나 확장될 수 있느냐다. 현재는 가구 배치 같은 정적인 작업에 집중하지만, “공을 굴려서 목표 지점에 맞춰라” 같은 동적 물리 시뮬레이션으로 확장되면 어떻게 될까. 또한 현재 데이터는 1만 5천 개 수준이지만, 수백만 개의 다양한 장면으로 학습하면 AI의 공간 지능은 인간 수준에 근접할 가능성이 있다. 다만 비전 정보를 더 효과적으로 활용하는 방법은 아직 개선의 여지가 크다. 보는 것과 이해하는 것 사이의 간극을 좁히는 일이 다음 과제로 남아 있다.
FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q1. 3D-Layout-R1이 기존 AI와 다른 점은 무엇인가요?
기존 AI는 “의자를 옮겨라”는 명령에 추상적인 설명만 제공하지만, 3D-Layout-R1은 장면 그래프라는 명확한 카드 목록을 단계별로 수정합니다. 각 단계가 투명하게 기록돼 어디서 실수했는지 즉시 확인하고 수정할 수 있습니다.
Q2. 어떤 작업에 실제로 사용할 수 있나요?
가상 공간 디자인, 로봇 작업 계획, 창고 물류 자동화, 건축 시뮬레이션 등에 활용 가능합니다. “상자를 높이 순으로 정렬하고 팔레트가 적은 구역에 배치하라”는 복잡한 명령도 정확히 수행합니다.
Q3. 일반 사용자도 이 기술을 쓸 수 있나요?
현재는 연구 단계이지만, 향후 3D 게임 에디터, 메타버스 공간 설정, 스마트 홈 가구 배치 앱 등에 통합될 가능성이 있습니다. 자연어만으로 복잡한 공간 재배치가 가능해지는 시점이 올 수 있습니다.
기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.
리포트명: 3D-Layout-R1: Structured Reasoning for Language-Instructed Spatial Editing
■ 이 기사는 AI 전문 매체 ‘AI 매터스’와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)
