Blog

Detail Page | Tech 메인메뉴

Detail Page | Tech

엔비디아가 제시하는 새로운 스케일링 법칙, ‘에이전틱 스케일링’

2026.04.10

엔비디아는 지난 3월 16일부터 19일까지 미국 캘리포니아 새너제이에서 연례 개발자 행사 GTC 2026을 개최하였습니다. 이번 행사에서 엔비디아는 기존의 스케일링 법칙을 넘어서는 새로운 단계의 개념을 공개하였습니다.

그동안 AI 업계는 모델 성능을 높이기 위한 핵심 방법론으로 사전 학습(Pretraining), 사후 학습(Post-training), 그리고 테스트타임 스케일링(Test-Time Scaling)을 강조해왔습니다. 엔비디아는 여기에 네 번째 법칙으로 에이전틱 스케일링(Agentic Scaling)을 제시하였습니다.

에이전틱 스케일링은 AI가 인간뿐 아니라 다른 AI와 상호작용하고 작업을 분담함으로써 보다 높은 수준의 결과를 도출할 수 있다는 개념입니다. 예를 들어 하나의 에이전트가 데이터를 분석하면, 다른 에이전트는 이를 기반으로 보고서를 작성하고, 또 다른 에이전트는 코드를 실행하는 방식으로 작업이 분산됩니다.

이는 AI 시스템이 단순히 질의에 응답하는 수준을 넘어, 도구를 호출하고, 코드를 생성하며, 정보를 탐색하고, 서브 에이전트를 생성하는 등 다양한 기능을 수행하며 다른 AI와 유기적으로 협력하는 방향으로 진화하고 있음을 보여줍니다. 이러한 흐름은 인간과 AI의 협업을 넘어, AI 간 협업과 작업 위임이 이루어지는 구조로 확장될 가능성을 시사합니다.

이러한 변화는 워크로드의 성격 자체를 근본적으로 변화시키며, 기존의 챗봇 중심 추론 환경과는 다른 인프라 요구사항을 동반합니다.

에이전트 시스템은 장시간 연속적으로 동작하며, 다양한 도구 호출과 데이터 접근, 모델 간 조율을 수행합니다. 이 과정에서 지연 시간(Latency), 메모리 이동, 스토리지 경로, 시스템 간 조율(Coordination)과 같은 요소들이 핵심 변수로 부각됩니다. 또한 빠른 추론 성능과 낮은 지연, 지속적인 메모리 관리, 보안 가드레일, 그리고 전체 시스템의 일관성을 유지하기 위한 오케스트레이션 역량이 동시에 요구됩니다.

Vera Rubin: 에이전트 시대를 위한 인프라의 재설계

이제 AI 인프라에 대한 수요는 단순한 모델 학습을 넘어, 수천 개의 에이전트가 중단 없이 상시 구동될 수 있는 실행 환경 구축으로 그 중심축이 이동하고 있습니다. 이를 뒷받침하는 핵심이 바로 차세대 AI 슈퍼컴퓨터 플랫폼 베라 루빈(Vera Rubin)입니다.

엔비디아는 Vera Rubin에 지난해 인수한 추론 특화 칩 스타트업 Groq의 기술을 통합하였습니다. GPU의 강력한 병렬 연산 능력과 LPU(언어처리장치)의 초저지연 성능을 결합함으로써, 추론 성능을 전 세대 대비 35배 이상 향상시킬 수 있는 아키텍처를 구현한 것입니다. 젠슨 황 CEO는 이를 '집계된 추론(Aggregated Inference)' 구조로 설명하며, 대규모 행렬 연산은 루빈 GPU가, 극저지연이 요구되는 토큰 생성은 Groq의 LPU가 각각 담당하는 역할 분담 방식을 소개하였습니다.

베라 루빈 플랫폼과 GPU-LPU 랙을 포함한 새로운 하드웨어 스택은 에이전트의 지속적인 활동을 뒷받침할 수 있는 수준의 토큰 생성 속도와 처리량을 확보하는 데 최적화되어 있습니다. 이는 데이터센터가 단순한 연산 자원을 제공하는 공간을 넘어, 에이전트 시스템의 지속적 운영을 전제로 한 구조로 진화하고 있음을 시사합니다.

NemoClaw: 에이전트 시대를 위한 소프트웨어 기반

소프트웨어 레이어에서도 의미 있는 변화가 감지되고 있습니다. 그중에서도 주목할 만한 발표가 바로 NemoClaw입니다. 대규모 GPU 인프라나 처리 성능 중심의 발표가 주를 이루는 GTC의 맥락에서 보면 다소 이질적으로 보일 수 있으나, 전략적 관점에서는 새로운 하드웨어 못지않은 함의를 지닌 발표로 해석됩니다.

젠슨 황 CEO는 이번 행사에서 OpenClaw에 대한 강한 기대감을 드러내며, SaaS에서 Agent-as-a-Service로의 전환이 엔터프라이즈 IT의 새로운 전기를 열 것이라는 전망을 제시하였습니다. 에이전틱 AI가 단순한 챗봇의 역할을 넘어 실질적인 비즈니스 과업을 수행하게 될 것이라는 점도 강조하였습니다.

NemoClaw는 엔비디아가 빠르게 성장하는 OpenClaw 생태계에 기여하고자 선보인 결과물로, 장기 실행 자율 에이전트를 위한 프레임워크입니다. 명령어 하나로 OpenClaw와 Nemotron 모델, 그리고 엔비디아의 새로운 보안 런타임인 OpenShell을 함께 설치할 수 있도록 설계되었습니다.

자율적으로 판단하고 행동하는 에이전트는 높은 생산성을 제공할 수 있는 반면, 예측 불가능한 행동이나 민감 정보 접근에 대한 리스크를 내포하고 있습니다. 이러한 이유로 많은 기업들이 사내에서의 OpenClaw 사용을 제한해온 것도 사실입니다.

NemoClaw는 에이전트 기반 시스템의 실제 비즈니스 환경 적용 과정에서 가장 큰 제약으로 지적되어 온 보안과 데이터 통제 문제를 정면으로 다룹니다. OpenClaw의 확장성과 유연성을 유지하면서도, OpenShell을 통해 정책 기반의 접근 제어와 데이터 처리 규칙을 적용함으로써 에이전트의 행동을 체계적으로 관리할 수 있는 구조를 제공합니다.

이는 엔비디아가 AI 모델을 구동하는 연산 자원을 공급하는 수준을 넘어, 에이전트가 실제로 작동하는 실행 환경과 운영 구조까지 관여하려는 전략적 움직임으로 볼 수 있습니다.

인프라를 넘어 전 스택으로

엔비디아는 이미 반도체 기업의 범주를 넘어, AI 생태계 전반으로 역할을 확장해 왔습니다. 현재 엔비디아는 칩을 비롯해 네트워킹, 스토리지, 런타임 소프트웨어, 모델, 시뮬레이션, 로보틱스, 개발자 도구에 이르기까지 AI 스택 전반에 걸쳐 존재감을 확대하고 있습니다. 이는 단일 제품이나 성능 개선을 넘어, 에너지와 실리콘, 네트워크, 데이터, 소프트웨어, 그리고 물리적 시스템까지를 하나의 운영 가능한 생산 체계로 통합하려는 접근으로 해석할 수 있습니다. 이러한 맥락에서 엔비디아는 개방형 생태계를 기반으로 한 수직 통합형 컴퓨팅 기업으로 스스로를 정의하고 있습니다.

동시에 개방형 생태계를 강화하려는 움직임도 병행되고 있습니다. 엔비디아는 Nemotron 3와 함께 Cursor, LangChain, Perplexity, Reflection AI, Thinking Machines 등 다양한 AI 기업들과의 협력을 발표했습니다. 각 기업이 데이터, 평가, 개발 분야의 전문성을 제공하고 엔비디아가 학습 인프라를 지원하는 구조로, 모든 조직이 독자적으로 프런티어 모델을 구축하는 대신 개방형 기반을 공동으로 구축하고 그 위에서 각자 전문화를 추구하자는 발상입니다. 이는 지난 몇 년간 AI 업계를 지배해온 폐쇄형 연구소 모델과는 결을 달리하는 접근이라 할 수 있습니다.

이러한 인프라 전략은 데이터센터를 넘어 물리적 세계로 확장되는 흐름과도 맞물려 있습니다. 엔비디아는 직접 로봇을 제조하지 않으면서도 로보틱스 플랫폼 영역에서 주요 플레이어로 자리잡아 가고 있으며, 자율주행 분야에서도 플랫폼 중심의 영향력을 확대할 가능성이 제기되고 있습니다. 로보틱스 시뮬레이션, 엣지 AI 네트워크, 자율주행 모델에 이르기까지, 동일한 인프라 논리가 데이터센터를 넘어 공장, 자동차, 도시 환경으로 확장되고 있습니다.

나아가 엔비디아는 우주 기반 AI 인프라라는 보다 장기적인 비전도 제시하였습니다. 우주 환경에 최적화된 베라 루빈 모듈을 소개하고, 궤도 위 시스템을 실시간 컴퓨팅 플랫폼으로 전환하는 구상을 공개한 것입니다. 상업적 실현까지는 상당한 시간이 소요될 수 있으나, 그것이 상징하는 바는 분명합니다. 엔비디아는 클라우드, 엣지, 데스크탑, 로보틱스, 통신, 자동차, 그리고 우주에 이르기까지 가능한 모든 방향으로 인프라의 뿌리를 내리고 있습니다.

젠슨 황 CEO가 GTC 2026 사전 행사에서 언급한 바와 같이, AI는 우리를 훨씬 더 바쁘게 만들고 있습니다.

Writer: Turing Post - Ksenia Se & Ben Eum

Edit: Metanet