Blog

Detail Page | Tech 메인메뉴

Detail Page | Tech

[Metanet X Turing Post] AI 버블을 터뜨릴 시한 폭탄, '생각 토큰'이 만드는 비용의 블랙홀

2025.10.27

"The costs will outweigh returns for many years, until we make models much more efficient to train and serve(thinking tockens, I'm looking at you), and we reduce energy costs, and the tech becomes reliable enough to be integrated."

앞으로도 여러 해 동안은 비용이 수익을 웃돌 겁니다. 우리가 모델의 훈련과 추론 효율성을('thinking tockens', 바로 너 말이야) 훨씬 더 높이고, 에너지 비용을 낮추며, 기술이 비즈니스에 안정적으로 통합될 만큼 성숙해질 때까지는 말이죠.

구글 딥마인드의 수석연구원 Kevin Murphy의 트윗입니다. 현재 AI 산업의 본질적인 고민을 정확히 짚어내고 있죠. AI가 만들어내는 경제적인 이익 대비 훈련과 운영에 드는 비용이 훨씬 막대한 상황이 생각보다 오래 지속되고 있다는 것입니다. '생각 토큰(Thinking Tokens)'이 그 '비효율'의 대표적인 상징이라는 점을 정확히 꼬집고 있습니다.

'숨은 추론'의 블랙홀과 1조 달러 규모의 순환 투자 버블

AI 시스템이 '생각'하는 데에는 당연히 비용이 들죠. 답변 정확도를 높이기 위해서, 모든 AI 시스템은 기본적으로 쉬운 질문에는 적게 생각하고 어려운 질문은 더 깊이 생각하도록 설계되어 있습니다. AI의 추론, 즉 생각하는 과정은 사용자에게는 노출되지 않습니다. 즉 '숨은 추론'의 형태로 막대한 연산량이 계속 발생되고 있습니다. 결과의 정확도는 높아졌을 수 있지만, 컴퓨팅 비용은 엄청나게, 그리고 많이 소모됩니다.

AI 모델이 매일 하루에 수십억 건씩 요청을 처리한다고 생각해보세요. 숨은 추론에 대한 계산량도 기하급수적으로 늘어날 수 밖에 없습니다. 이 과정에서, AI 산업 전체의 소비 구조는 그 자체로 에너지를 빨아들이는 거대한 블랙홀이 될 수 밖에 없습니다. AI 지능 성장은 거대 규모의 인프라를 요구할 뿐만 아니라, 운영 비용도 비례해서 폭발적으로 증가하는 것을 의미합니다.

이 AI 모델 추론을 둘러싼 막대한 비용에 대응하기 위해 오픈AI, 엔비디아, AMD, 오라클 등 빅테크가 인프라를 둘러싸고 1조 달러 규모의 상호 의존적 순환 거래 투자를 단행하고 있습니다.

먼저 오픈AI는 지난 9월 10일 오라클과 '스타게이트' 프로젝트의 일환으로서 3,000억 달러 규모의 5년 장기 클라우드 계약을 체결했습니다. 이어 9월 22일, 엔비디아로부터 1,000억 달러 규모의 투자를 받을 예정이라고 발표했습니다. 오픈AI는 이 자금을 초대형 데이터센터 건설을 위해 사용할 예정입니다. 이 데이터 센터에는 엔비디아의 칩이 사용됩니다. 즉 오픈AI가 엔비디아로부터 받은 투자금을 다시 엔비디아에 지불하는 셈이 되는 거죠.

10월 초엔 AMD와 그래픽 처리 장치 구매 계약을 맺었습니다. 투자 금액은 명시되지 않았으나, 엔비디아 파트너십의 절반 정도 규모로 추정됩니다. 대신 오픈 AI는 AMD 보통주를 주당 0.01 달러에 매입할 수 있게 했습니다. 오픈AI와 손잡았다는 소식을 통해 AMD 주가를 끌어올리고, 오픈 AI는 헐값에 AI 칩을 확보할 수 있게 된 셈입니다. 얽히고 섥힌 구조는 이게 끝이 아닌데요. 오라클은 올해 엔비디아의 최신 GPU 공급 계약을 확대하는 가운데, 내년 하반기에는 AMD의 AI칩 5만 개를 도입할 예정입니다.

하지만 이런 거대한 순환 투자 구조가 무너지는 순간, AI 버블이 터져버리고 말 것이라는 우려가 팽배해지고 있습니다. 특히 오픈 AI가 현금 보유율이 낮다는 점이 가장 주목됩니다. 연일 전 세계 기업과 맺는 초대형 파트너십을 감당할 만큼의 자금이 없다는 시선이죠. 참고로 오픈AI는 2029년까지 현금 흐름이 마이너스를 기록할 것으로 전망됩니다.

빅테크들이 이렇게까지 무리하다 싶을 정도로 돈을 쏟아붓는 이유는 뭘까요? 답은 간단합니다. 일단 철도망을 깔아놔야 기차표를 팔 수 있듯이, 인프라를 먼저 만들어 놓고 수익은 나중에 만들겠다는 계산이죠.

하지만 생각해봐야 할 지점이 있습니다. 예컨대 오라클 GPU 클라우드는 AI 서버 매출 1달러당 이익이 14센트밖에 되지 않습니다. 그런데 AI 모델이 세대가 바뀌고 더 똑똑해져서 고지능의 추론을 요구하고, 토큰을 많이 쓰면 운영 비용은 상승할 것이고 결국 마진폭은 줄어들게 될 것입니다. 즉, 빅테크가 기록적인 설비투자를 해도, 추론 효율이 컴퓨팅 비용의 상승 속도보다 빠르게 개선되지 못한다면 수익을 내기 어렵다는 겁니다. 효율이 개선되어야만 컴퓨팅 자원 투자가 의미가 있을 수 있습니다.

생각 토큰의 탄생: 똑똑해진 AI, 폭증하는 비용

사고 과정이 내부에 숨겨질수록, 그 안에 있는 편향이나 오류도 함께 보이지 않게 된다는 문제가 발생합니다. 이는 오히려 엣지 디바이스에서 직접 실행할 수 있는 작고 투명하며 효율적인 모델의 필요성을 역설합니다.

한때 '숨은 추론(Hidden Reasoning)'은 AI가 인간처럼 사고하기 시작했다는 신호로 여겨졌지만, 현재는 '지능으로 포장된, 과장되고 부풀려진 계산'일 수 있다는 냉철한 시각도 존재합니다. 겉보기에는 더 똑똑해졌으나, 실제로는 보이지 않는 곳에서 계산량이 조용히 폭증하고 있는 것으로 볼 수 있죠.

앞서 머피가 지적한 '생각 토큰'이 이런 숨은 추론을 만드는 주범이라고 할 수 있습니다. 생각토큰이란, 모델이 스스로 사람과 같이 사고하는 것처럼 흉내내기 위해 내부적으로 수행하는 추가 계산을 말합니다.

초기 언어 모델들은 사용자에게 답변을 '즉각적으로' 생성하는 방식이었습니다. 이러한 한계를 극복하기 위해 프롬프트 엔지니어들은 "단계별로 생각해 보자(Let's think step-by-step)"는 방식의 CoT(Chain-of-Thought) 프롬프팅 기법을 사용했습니다. 이 방식은 복잡한 문제에 대한 모델의 추론 능력을 극적으로 향상시켰지만, 사용자가 입력하는 프롬프트가 길어지고 장황해져야 했기 때문에 처리 비용이 증가하는 문제가 있었습니다.

그래서 연구자들은 이 CoT 기법을 모델의 '내부'로 통합하기로 했습니다. 이 과정에서 도입된 것이 바로 '생각 토큰'입니다. 이 토큰들은 사용자에게는 전혀 보이지 않는 숨겨진 토큰으로, 모델이 어려운 문제에 직면했을 때 자체적으로 추가적인 계산 시간과 자원을 투입하여 심층적인 추론을 수행할 수 있도록 지원합니다.

오늘날 시장을 선도하는 고성능 추론 모델들, 예를 들어 Claude 4.5, Gemini 2.5, GPT-5 등은 대부분 이 메커니즘을 활용합니다. 이 모델들은 최종 응답을 출력하기 전, 사용자가 인식하지 못하는 뒷단에서 복잡한 내부 작업을 추적하고, 숨겨진 토큰을 사용하여 '생각'을 정리합니다.

결론적으로, 거대 언어 모델들은 이제 응답을 확정하기 전에 '잠시 멈추고 생각할 줄 아는' 능력을 갖게 되었습니다. 이러한 잠깐의 멈춤은 추가적인 연산량을 필요로 하며, 이는 곧 비용으로 직결됩니다. 모델은 답변의 품질을 높이기 위해 자발적으로 비용을 지불하고 추가 연산을 수행하는 것입니다.

이러한 방식의 장점은 명확합니다. 모델은 이제 더 어려운 수학 문제를 해결하고, 복잡한 코드 계획을 수립하는 등 질적으로 향상된 추론 능력을 제공하여 사용자의 기대치를 충족시킵니다.

그러나 이 혁신에는 '비용'이라는 중대한 단점이 그림자처럼 따라붙습니다. 하나의 '사려 깊은(Thoughtful)' 답변을 도출하기 위해, 숨겨진 모든 토큰은 GPU 사용 시간과 전력을 소비하며, 이는 Forward Pass(순방향 연산)를 수천 번 추가적으로 수행해야 함을 의미할 수 있습니다. 복잡하고 가치 있는 질문에 대해서는 정당한 비용이 될 수 있지만, 단순하고 명료한 질문에 대해서도 동일한 수준의 내부 연산을 진행한다면, 이는 곧 막대한 자원 낭비로 이어질 수 있습니다.

‘추론(Reasoning) 연구의 두 가지 전선(Frontline)

언어모델의 추론 영역 연구자들은 앞서 언급한 이슈를 해결하기 위해서 서로 다른 두 가지 전략적 방향, 즉 ‘효율’과 ‘변혁’의 두 전선에서 혁신을 추진하고 있습니다.

한 쪽 진영에서는 ‘더 가벼운 생각(Leaner Thinking)’의 방향을 탐구합니다. 즉 LLM이 '덜' 생각하되 '똑똑하게' 생각하도록 하는데 집중합니다. 내부의 트레이싱을 줄여서 추론 과정을 간결하게 하고, 도움이 될 때만 추론을 하게끔 토큰 예산을 조정합니다.

첫 번째 진영의 무기는 기본적으로 ‘압축(Compression)’입니다.

▶필러 토큰 제거

“흠…”이나 “잠깐…” 같은 불필요한 추론 시작 표시 토큰을 제거하여, 추론의 길이를 대략 40% 단축하면서도 정확도는 비슷한 수준으로 유지합니다.

▶개념 연결 방식의 추론

모델이 단어를 나열하면서 생각하는 대신, 마치 인간이 머릿 속에서 개념을 연결하듯 부드럽게 사고하게 만들어 불필요한 연산을 줄이고 전체 토큰 사용량을 약 22% 절감할 수 있습니다.

▶연속적 사고 흐름으로의 전환

CoT를 아예 없애고 생각이 안 끊기면서 흘러가는 ‘연속적 사고 흐름’으로 바꿔버리는 시도도 있었습니다. 기존보다 최대 15배 빠르게 추론을 하면서도 정확도는 그대로 유지하거나 오히려 향상시키는 성과를 보였습니다.

다른 한 쪽 진영에서는 토큰 중심의 추론 구조 자체를 벗어나, '완전히 다른 방식의 생각'을 추구합니다. 즉 끝없이 토큰을 사용하면서 문장을 이어붙이는 언어화된 사고를 벗어나고자 하는 것입니다. 토큰 개념의 바깥(사람이 언어로 말하거나 쓰기 전에 내부적으로 처리하는 추상적인 개념, 이미지, 논리적 구조 등 언어로 즉각 반환되지 않는 형태의 사고 과정)에서 이뤄지는, 진정한 지능활동을 어떻게 실행할 수 있을지를 고민합니다.

이들의 무기는 ‘변형(Transformation)’입니다. 덜 생각하는게 아니라 ‘다르게’ 생각하고자 하는 것이죠.

▶ 깊이 대신 반복

700만개 파라미터 규모의 작은 네트워크가 답변을 반복적으로 다듬어서, 거대 언어모델과의 ARC-AGI 퍼즐 대결에서 승리할 수 있다는 연구결과가 있었습니다. 거대한 뇌가 한 번 생각하는 대신, 작은 뇌가 여러 번 생각하는 방식을 선택하여 '넓이(Width)'를 포기하고 '깊이(Depth)'를 얻는 전략입니다.

▶ 내부적 노이즈 제거

응답 전에 여러 가능한 사고 경로를 내부적으로 동시에 떠올린 후, 잡음을 점진적으로 제거하여 가장 일관성 있는 사고 경로만을 남기는 방식으로 추론의 오류를 줄이려 합니다.

▶ 잠재 공간 기반의 집중적 사고

AI가 문제를 한 번에 다 계산하지 않고, 필요한 부분만 집중해서 다시 생각하도록 만드는 구조에 대한 시도도 있었습니다. 모델이 입력을 잠재공간(머릿속 개념 형태)으로 바꾼 뒤에, 그 중 중요한 영역만 여러 번 되짚어 보면서 사고를 정제하고, 마지막에 결과를 문장으로 표현합니다. 쉽게 말해, “전체를 반복 학습하는 대신, 핵심만 여러 번 곱씹는 똑똑한 사고 방식” 이라고 볼 수 있습니다.

결국 AI 산업과 AI 이코노미의 미래가 안정적인 성장으로 이어질지, 아니면 '버블'로 막을 내릴지는 결국 단 하나의 숫자, 비율(Ratio)에 달려 있는 셈입니다.