2025.12.08

오픈AI의 공동 창립자이자 현재 인공지능 연구기업 SSI의 CEO인 일리야 수츠케버(Ilya Sutskever)는 최근 한 팟캐스트 인터뷰에서, 그동안 AI 발전을 견인해온 데이터와 컴퓨팅 파워 기반의 스케일링(Scaling) 전략이 한계에 도달했다고 지적했습니다. 그는 앞으로는 더 큰 모델을 만드는 방식이 아니라, 완전히 새로운 학습 원리를 탐구하는 ‘연구의 시대’가 도래할 것이라고 전망했습니다.
특히 수츠케버는 해당 인터뷰에서 '데이터의 유한성'을 핵심적인 제약 요인으로 지적했습니다.
"어느 시점이 되면 사전 훈련(Pre-training)을 위한 데이터는 고갈될 것입니다. 데이터는 명백히 유한하기 때문입니다."
“At some point though, pre-training will run out of data. The data is very clearly finite.”
실제로 많은 AI 전문가들은 2023년 말부터 사용 가능한 실제 데이터(real data)의 한계를 지속적으로 언급해왔습니다. 어쩌면 이미 더 이상 대규모 모델을 충분히 학습시킬 만한 웹 데이터가 남아 있지 않을 가능성도 제기되고 있습니다. 그렇다면 앞으로 AI 모델 학습을 위한 ‘데이터셋’을 어떻게 보충할 것인가가 중요한 과제로 떠오릅니다.
여기서 많은 연구자들은 모델이 스스로 생성한 데이터, 즉 ‘합성 데이터(Synthetic Data)’를 활용하는 가능성에 주목하고 있습니다. 겉으로 보기에는 단순합니다. 데이터를 더 많이 생성하면 되는 것처럼 보이기 때문입니다. 그러나 현실은 훨씬 복잡합니다. 합성 데이터는 종종 정확도가 떨어지기 때문에, 이를 무분별하게 활용할 경우 ‘모델 붕괴(Model Collapse)’와 같은 심각한 성능 저하가 발생할 수 있습니다.
요약하자면, 아직은 ‘AI가 완전한 자율 방식으로 고품질의 훈련 데이터를 무한히 생성해낼 수 있는 시대’가 오지 않았습니다. 따라서 지금 우리가 집중해야 할 다음 단계는, 여러 조직의 AI 팀들이 어떻게 HITL(Human-in-the-Loop) 기법과 시스템을 활용해 합성 데이터를 더 유용하고 안전하며 신뢰성 있게 만드는가에 있습니다.
오늘 글에서는 '합성 데이터'에 대해 좀 더 자세히 알아보겠습니다.
2024년을 전후로 AI 학습용 데이터 부족은 더 이상 미룰 수 없는 과제가 됐습니다. 비영리 연구단체 에포크AI(Epoch AI)에 따르면 2026년 이전에 고품질 언어 데이터가 고갈되고, 2030년에서 2050년 사이에는 저품질 언어 데이터, 2030년에서 2060년까지는 비전 데이터가 고갈될 것으로 예상됩니다. 일론 머스크 테슬라 CEO 역시 AI가 학습할 수 있는 인간 지식이 이미 대부분 소진됐다는 견해를 밝힌 바 있습니다.
이제 AI는 스스로 학습 데이터를 만들어야 합니다. 이 접근이 바로 합성 데이터(Synthetic Data)의 핵심 아이디어입니다. 현실 세계에서 데이터를 수집하는 대신, 모델이 텍스트, 이미지, 비디오, 구조화된 테이블 등 현실을 모방한 인공 데이터를 생성합니다. 말 그대로 알고리즘이 알고리즘을 위해 데이터를 만드는 개념입니다.
합성 데이터 자체는 새로운 개념이 아닙니다. 로보틱스와 자율주행 분야에서는 드물거나 위험한 극한 상황(Edge Case)을 시뮬레이션하기 위해 오래전부터 활용돼 왔습니다. 이러한 상황을 실제로 관찰할 때까지 기다릴 수 없기 때문에, 더 빠르고 안전한 테스트를 가능하게 해주는 방식입니다.
합성 데이터의 주요 이점은 다음과 같습니다.
▶ 데이터 공백 보완: 희귀 질병이나 사고 상황 등 현실에서 확보하기 어려운 특수 시나리오 데이터를 확보할 수 있습니다.
▶ 개인정보 보호: 실제 개인정보가 아닌 모방 데이터를 사용함으로써 프라이버시 침해 우려 없이 모델 훈련이 가능합니다.
▶ 비용 및 시간 절감: 고비용의 레이블링(Labeling) 작업을 대체하고, 데이터 수집 주기를 획기적으로 단축할 수 있습니다.
▶ 편향성(Bias) 완화: 통제된 조건 하에 다양하고 균형 잡힌 데이터를 생성하여 모델의 편향을 줄일 수 있습니다. |
그렇다면 왜 단순히 합성 데이터를 무한히 생성해 문제를 해결하지 않는 것일까요? 그 이유는 저품질 합성 데이터가 ‘모델 붕괴(Model Collapse)’를 초래하기 때문입니다. 이는 모델의 오류가 자기 증식하는 일종의 악순환입니다. 최근에는 이러한 문제를 해결하기 위해 합성 데이터를 정교하게 통제하는 기술이 빠르게 등장하고 있습니다.
대표적 접근 중 하나는 추론 시점 자가 훈련(Inference-Time Self-Training)입니다. 모델이 스스로 출력물을 생성하고, 이를 평가해 가장 우수한 답변을 바탕으로 다시 학습시키는 방식으로, 폐쇄형 피드백 루프를 만들어 스스로를 개선합니다. 그러나 이것만으로는 충분하지 않습니다. 결국, 생성된 데이터의 품질을 보장하기 위해서는 여전히 사람의 감독이 필요합니다.
Anthropic과 OpenAI와 같은 기업들은 대량의 합성 데이터를 활용하지만, 동시에 Scale AI, Toloka, SuperAnnotate 등의 플랫폼을 통해 사람의 피드백을 수집합니다. 응답을 평가하거나, 극한 사례에 레이블을 부여하거나, 보상 모델(Reward Model)을 개선하는 과정에서 사람의 역할은 여전히 핵심적입니다.
합성 데이터를 생성하는 방식은 목적과 환경에 따라 다양하게 적용됩니다.
▶ 통계적 방법 (Statistical Methods) 실제 데이터셋의 통계적 특성(평균, 분산 등)을 분석하여 이를 모방하는 고전적인 접근법입니다. 정형 데이터(Tabular Data) 생성에 적합하나, 복잡하고 비선형적인 관계를 포착하는 데에는 한계가 있습니다.
▶ 생성적 적대 신경망 (GANs) 생성기(Generator)와 판별기(Discriminator)라는 두 신경망이 경쟁하며 학습하는 방식입니다. 특히 이미지 생성 분야에서 높은 사실성을 보여주지만, 학습 과정이 불안정하고 제어가 까다롭다는 단점이 있습니다.
▶ 변분 오토인코더 (VAEs) 데이터를 저차원의 잠재 공간(Latent Space)으로 압축한 뒤, 이를 다시 복원하며 변형을 가하는 방식입니다. 기존 데이터를 바탕으로 다양한 변형(Variation)을 생성하는 데 유용합니다.
▶ 트랜스포머 모델 (Transformer Models) GPT, Claude 등의 기반이 되는 기술로, 문맥(Context) 이해 능력이 탁월합니다. 텍스트, 코드, 복잡한 구조의 데이터 생성에 압도적인 성능을 발휘하며 현재 합성 데이터 생성의 핵심 기술로 자리 잡았습니다. |

이처럼 강력한 도구들이 존재함에도 합성 데이터를 무작정 생성해 사용할 수 없는 이유는 모델 붕괴(Model Collapse) 때문입니다. 모델 붕괴는 모델이 주로 스스로 생성한 합성 데이터를 기반으로 반복 학습할 때 발생하는 폐쇄형 자기 파괴적 현상입니다. 반복될수록 생성 데이터는 다양성이 떨어지고 오류가 증가하며, 이전 세대의 편향과 인공적 패턴(Artifacts)이 증폭됩니다.
시간이 지날수록 모델은 현실 세계의 복잡성과 변동성을 잃어버리고, 결과물은 반복적이며 밋밋하고 사실과 멀어진 형태로 수렴합니다. 모델의 ‘세계(Reality)’ 이해가 안쪽으로 붕괴하는 셈입니다. 연구자들은 이러한 현상이 실제 데이터 분포(True Data Distribution)에 대한 모델의 이해를 심각하게 손상시키고, 성능의 급격한 저하로 이어질 수 있음을 입증하고 있습니다.
지금까지 살펴본 것처럼, AI 산업은 더 이상 무한한 웹 데이터와 컴퓨팅 파워로 성장을 밀어붙일 수 있는 단계에 머물러 있지 않습니다. 데이터 부족이라는 현실적 제약과, 무분별한 합성 데이터 활용 시 발생하는 모델 붕괴(Model Collapse)의 위험은, 결국 ‘좋은 데이터’를 어떻게 지속적으로 확보하고 관리할 것인가라는 근본적인 질문을 다시 제기하고 있습니다. 합성 데이터는 이러한 데이터 공백을 메우는 중요한 도구이지만, 그 자체만으로는 고품질 학습을 보장할 수 없습니다.
이제 필요한 것은, 모델이 생성한 데이터를 사람이 정교하게 평가·교정·보완하는 체계입니다. 글로벌 AI 기업들이 합성 데이터와 인적 피드백을 결합해 품질을 통제하는 이유 역시 여기에 있습니다. 다음 글에서는 합성 데이터가 실제로 작동하고, 모델 성능을 향상시키는 방향으로 활용되기 위해 반드시 필요한 접근법인 HITL(Human-in-the-Loop) 전략에 대해 자세히 살펴보겠습니다.
Writer: Turing Post - Ksenia Se & Ben Eum
Edit: Metanet