2025.12.01

인공지능 기술은 주로 거대언어모델(LLM)의 비약적인 발전에 힘입어 텍스트와 코드, 이미지와 같은 디지털 정보의 처리 및 생성 분야에서 혁신적인 성과를 거두었습니다.
그러나 스탠포드 대학 교수이자 월드랩스의 CEO인, 'AI의 대모'로 불리는 페이페이 리 박사는 현재의 AI가 처한 근본적인 한계를 지적하며 새로운 이정표를 제시합니다. 최근 그녀가 게시한 아티클 <From Words to Worlds: Spatial Intelligence is AI’s Next Frontier>에서는, 오늘날의 최첨단 LLM조차 "어둠 속의 문장가(wordsmiths in the dark)"에 불과하다고 지적합니다. 이들은 유창하고 박식하지만, 그 지식이 물리적 현실에 기반하지 않은 채 부유하고 있습니다. 다시 말해, 현 세대 AI는 인간처럼 세상을 직접 보고 이해하지는 못하기 때문에 현실 세계에서의 활용에는 한계가 있다는 겁니다. 공간지능(spatial intelligence)은 이러한 한계를 극복할 열쇠로 주목받는 개념으로, 리 교수는 이를 AI의 “다음 프론티어”라고 선언했습니다.
오늘 아티클에서는 공간지능이 무엇인지, 그리고 이 기술이 AI의 미래에 어떤 영향력을 가져올지에 대해 페이페이 리 교수의 글을 중심으로 좀 더 자세히 살펴보겠습니다.
공간지능이란 단순히 사물을 시각적으로 인식하는 것을 넘어, 3차원 공간 내에서 사물 간의 기하학적 관계, 물리학적 법칙, 그리고 인과관계를 이해하고 추론하는 능력을 의미합니다. 이는 사람이 주변 환경을 시각, 촉각 등 감각으로 이해하고 그 정보를 바탕으로 즉각 행동하는 일련의 과정을 포괄합니다. 예를 들어 우리는 차를 주차할 때 범퍼와 경계석 사이 간격을 머릿속으로 그려보고, 건네진 열쇠 꾸러미를 무의식중에 잡아채며, 사람들로 붐비는 거리에서도 서로 부딪치지 않도록 경로를 조정합니다. 이러한 일상적인 행동은 모두 눈에 보이는 공간적 단서로부터 의미를 해석하고 미래 결과를 예측하는 인간의 공간지능 덕분에 가능하죠.
이처럼 공간지능은 인간 인지능력의 토대이며, 우리가 세상을 이해하고 창의적으로 상상하는 방식을 떠받치는 중요 요소입니다. 우리의 추론과 계획도 공간적 직관 위에서 이뤄지고, 언어 이전의 어린 아이도 주위 환경과 몸으로 부딪치며 배우는 경험을 통해 세상 이해를 넓혀갑니다. 반면 오늘날의 AI는 아직 이러한 공간지능을 갖추지 못했습니다. 최신 멀티모달 AI 모델이 이미지 분석이나 간단한 동영상 생성 정도는 해내지만, 여전히 인간 수준의 공간 지각 능력과는 거리가 멉니다. 예를 들어, LLM은 '떨어지는 컵'을 시적으로 묘사할 수 있지만, 컵이 바닥에 부딪혀 깨질 때 파편이 튀는 궤적이나 이를 잡기 위한 손의 3차원 좌표를 계산하지는 못합니다. 이렇게 AI가 생성하는 정보가 현실 세계의 물리적 실체와 연결되지 않기 때문에, 로보틱스나 자율주행과 같은 정밀함이 요구되는 영역에서 한계가 명확했습니다.
공간지능의 중요성은 AI가 현실 세계와 연결되는 데 있습니다. 리 교수는 “내 언어의 한계는 곧 내 세계의 한계를 의미한다”는 비트겐슈타인의 말을 인용하며, 현재 AI가 “단어의 한계”에 갇혀 있다고 지적합니다. 언어에 기반한 AI는 방대한 지식을 다룰 수 있지만 물리적 세계와 분리된 채 추상적 정보만 처리합니다. 반면 공간지능을 갖춘 AI는 상상력, 지각, 행동을 연결하여 인간 생활을 실질적으로 돕는 새로운 가능성을 열어줄 것이라고 전망합니다. 다시 말해, 언어를 넘어 현실 세계를 이해하는 능력이 갖춰질 때 비로소 AI는 우리의 창의성, 생산성, 학습능력을 새로운 수준으로 증폭시킬 수 있다는 것입니다. 이러한 관점에서 공간지능은 AI 혁신의 다음 지평으로 떠올랐으며, 향후 AI 발전의 필수 과제로 주목받고 있습니다
LLM의 한계를 뛰어넘어 진정한 공간지능형 AI를 구축하려면, 현실 세계의 복잡한 물리 환경을 이해하고 생성해내는 새로운 AI 아키텍처가 필요합니다. 페이페이 리 교수가 제시한 해법은 바로 “월드 모델(World Model)”입니다. 월드 모델은 단순한 이미지 생성기가 아니라, 물리적 세계의 법칙을 내재화하여 일관성 있는 3차원 가상 세계를 생성하고 시뮬레이션할 수 있는 시스템을 의미합니다. 리 교수는 월드 모델이 갖추어야 할 세 가지 핵심 역량으로 생성성(Generative), 멀티모달리티(Multimodality), 상호작용성(Interactivity)을 제시합니다.
기존의 비디오 생성 AI는 시각적으로 그럴듯한 영상을 만들어내지만, 영상이 진행될수록 사물의 형태가 일그러지거나 물리 법칙에 위배되는 움직임을 보이는 경우가 많습니다. 진정한 월드 모델은 지각적, 기하학적, 물리적으로 일관성 있는 세계를 생성해야 합니다. 사용자가 생성된 3D 공간을 탐색할 때 벽이 사라지거나 중력이 변하지 않고, 영속성(Persistence)을 유지해야 합니다. 이는 건축 설계 시뮬레이션이나 로봇 훈련 환경과 같이 정밀함이 요구되는 비즈니스 응용처에서 필수적인 요건입니다.
인간이 시각, 청각, 촉각을 통합하여 공간을 인지하듯, 월드 모델은 텍스트, 이미지, 비디오, 깊이 지도(Depth map), 제스처 등 다양한 형태의 입력을 처리할 수 있어야 합니다. 이를 위해서는 현실에 가까운 시각적 인식 능력과 정교한 자연어 이해력, 그리고 각종 감각 데이터의 통합 처리 능력이 결합돼야 합니다. 예컨대 월드 모델에 공장 관리자가 "이 구역의 안전 펜스를 2미터 확장하라"는 텍스트 명령과 함께 현장 사진을 입력하면, 월드 모델은 이를 통합하여 수정된 3D 시뮬레이션을 즉시 생성할 수 있어야 합니다. 이는 비즈니스 현장에서 AI와의 커뮤니케이션 효율을 극대화합니다.
월드 모델의 가장 큰 차별점은 정적인 3D 모델링을 넘어, 행동에 대한 결과를 예측하는 상호작용성에 있습니다. 사용자가 어떤 행동(action)이나 목표(goal)를 모델에 제시하면, 모델은 그에 따라 세계가 변화하는 모습(다음 상태)을 출력으로 내놓을 수 있어야 합니다. "이 물체를 밀면 어떻게 될까?"라는 질문에 대해, 월드 모델은 물리학 법칙에 기반하여 물체가 넘어지거나 굴러가는 다음 상태를 생성해야 합니다. 이는 AI가 가상 환경에서 수백만 번의 시행착오를 겪으며 학습하는 강화학습의 기반이 되며, 현실 세계에서 발생할 수 있는 위험을 시뮬레이션 환경에서 미리 검증할 수 있게 해 줍니다.
페이페이 리 교수는 이러한 월드 모델 구축이 “지금까지 AI가 맞닥뜨린 도전 중 가장 복잡한 과제”라고 강조합니다. 언어는 인간 인지의 산물 중 비교적 일차원적 신호(문장 시퀀스)에 불과하지만, 세계는 다차원적이고 복잡한 물리 법칙의 지배를 받습니다.
예를 들어 우리의 현실 세계에서는 중력이 물체의 운동을 결정하고, 광원의 스펙트럼이 색과 밝기를 좌우하며, 수없이 많은 물리·화학 법칙이 모든 상호작용에 제약으로 작용합니다. 인간이 상상력으로 그려낸 공상 속 세계조차 어떤 형태로든 일관된 공간적 규칙을 갖기 마련입니다. 따라서 시맨틱(의미적 이해), 지오메트릭(기하학적 구성), 다이내믹(역학적 변화) 등 다층적인 일관성을 동시에 충족하는 월드 모델을 만드는 일은 매우 어렵습니다. 하지만 동시에, 이 과제가 풀릴 때 얻어질 수확은 어마어마하다고 리 교수는 말합니다.
현실과 가상을 넘나드는 공간지능이 구현되면, 창의성 도구에서부터 로봇 자율성, 과학적 연구에 이르기까지 AI 활용 범위가 비약적으로 확대될 것입니다. 즉 월드 모델은 공간지능 시대의 기술적 엔진이자, AI의 다음 세대 혁신을 견인할 열쇠라 할 수 있습니다.
공간지능을 갖춘 AI, 즉 현실 공간을 이해하고 상호작용할 수 있는 AI는 다양한 산업 분야에서 새로운 가치 창출을 이끌 것으로 기대됩니다. 특히 피지컬 AI(Physical AI), 즉 물리적 세계에서 행동하는 AI를 구현하는 데 큰 영향력을 가질 수 있습니다.
그동안 로보틱스와 피지컬 AI 발전의 가장 큰 걸림돌은 현실 세계의 데이터 부족이었습니다. 인터넷에는 텍스트 데이터가 넘쳐나지만, 로봇이 컵을 쥐는 미세한 압력이나 미끄러운 바닥을 걸을 때의 균형 감각에 대한 데이터는 매우 희소합니다. 텍스트로 된 매뉴얼만 읽고 자전거 타는 법을 배울 수 없는 것처럼, AI 역시 텍스트 데이터만으로는 물리적 행동을 학습할 수 없습니다.
월드 모델은 무한한 가상 시나리오를 생성하여 이 문제를 해결합니다. 로봇은 물리 법칙이 적용된 가상공간에서 수백만 번의 작업을 연습한 후, 현실 세계에 투입됩니다. 이를 통해 학습 비용을 획기적으로 낮추고, 희귀하거나 위험한 상황에 대한 대응 능력을 확보할 수 있습니다. 결국 공간지능 기술(월드 모델)은 "데이터가 없어서 똑똑한 로봇을 만들 수 없다"는 물리 AI 분야의 오랜 병목을 해소해줍니다. 이것이 바로 공간지능이 단순한 소프트웨어 기술을 넘어, 제조업과 물류 등 실물 경제를 혁신할 피지컬 AI의 기폭제가 되는 이유입니다.
지금까지 로봇은 제한된 환경에서 미리 프로그램된 작업을 수행하는 수준에 머물렀지만, 공간지능을 갖춘 차세대 로봇은 주변 세계를 이해하고 실시간으로 대응하게 될 것입니다. 예를 들어, 공장 로봇이 스스로 주변 물체의 위치와 움직임을 파악하고 유연하게 경로를 조정한다면 생산 라인의 효율성과 유연성이 크게 높아질 것입니다. 또한 공간지능형 AI는 가상 시뮬레이션을 통해 방대한 로봇 훈련 데이터를 생성함으로써, 현실에서 수집하기 어려운 다양한 시나리오를 로봇에게 가르칠 수 있습니다.
이는 로봇 학습의 병목을 극복하여, 마치 인간이 수많은 상황을 간접 경험으로 학습하듯 로봇도 가상 세계에서 미리 연습해볼 수 있게 합니다. 그 결과, 자율주행차나 서비스 로봇이 예측하지 못한 장애물이나 변수에 대응하는 능력이 향상되어 운영 리스크를 최소화하고 안전성을 높일 것입니다. 나아가 이런 로봇은 단순한 도구를 넘어 인간의 동반자이자 협업자로 거듭날 전망입니다.
이외에도 공간지능은 디자인, 시뮬레이션, 의료, 교육 등 다양한 분야에서 활용되며 업무 효율성 증대, 위험 최소화, 혁신적 사용자 경험 창출 등 실질적인 비즈니스 성과와 연결될 것으로 기대됩니다.
지금까지의 AI 혁신이 LLM을 중심으로 텍스트와 코드를 처리하며 디지털 영역의 생산성을 높이는 데 집중했다면, 공간지능은 AI가 물리적 현실을 인지하고 예측하는 단계로 진입했음을 의미합니다.
본문에서 살펴본 바와 같이, 공간지능의 핵심은 AI가 인간처럼 3차원 공간의 기하학적 구조와 물리 법칙을 이해하는 데 있습니다. 이를 구현하는 핵심 아키텍처인 월드 모델'은 가상 공간에서의 정교한 시뮬레이션을 통해 물리 데이터 부족이라는 기존 AI의 한계를 극복하게 해줍니다. 이는 곧 AI가 소프트웨어의 영역을 넘어 제조, 물류, 로보틱스 등 실물 경제 현장에서 실질적인 과업을 수행하는 피지컬 AI로 거듭난다는 것을 시사합니다.
따라서 이제부터는 AI 도입의 관점을 단순한 사무 자동화나 대화형 서비스 구축을 넘어, 물리적 비즈니스 환경의 최적화로 확장하는 방안을 고려해 볼 필요가 있습니다. 공간지능 기술은 향후 공정의 효율화, 리스크 시뮬레이션, 그리고 자율화된 시스템 구축에 있어 핵심적인 역할을 수행할 것입니다. AI가 디지털 모니터 밖으로 나와 우리 비즈니스의 물리적 현장을 어떻게 혁신할 수 있을지, 그 새로운 가능성과 잠재력에 주목해야할 시점입니다.
Write/Edit: Metanet
Reference: Turing Post