KR EN

Blog

Detail Page | Tech 메인메뉴

Detail Page | Tech

딥시크부터 구글까지, 거대 AI 모델들이 MoE를 주목하는 이유

2025.11.07

 

딥시크 V3, 메타의 Llama, 알리바바의 Qwen3, 구글 제미나이 2.5. 이 대규모 언어 모델들의 공통점이 무엇일까요? 바로 MoE(Mixture-of-Experts, 전문가 혼합) 기법을 핵심 구조로 채택하고 있다는 것입니다.

 

MoE는 하나의 거대한 모델 대신 여러 개의 작은 '전문가(Expert)' 모델이 특정 역할을 분담하여 작업을 처리하는 방식입니다. 비유하자면, 하나의 AI 모델 안에 여러 전문가를 두고 질문이 들어오면 가장 적합한 전문가만을 선택해 응답하게 하는 구조입니다.

 

MoE의 개념은 LLM이 출현하기 전부터 소개되었지만, 최근 더욱 주목받고 있습니다. 비교적 적은 비용으로도 AI 성능을 크게 높일 수 있기 때문이죠. 그러면 이번 글에서는 MoE가 무엇인지, 왜 각광받는지에 대해 자세히 알아보겠습니다.

 

 

MoE의 개념과 역사

 

MoE(Mixture of Experts)는 기본 신경망 구조 위에 여러 개의 독립적인 ‘전문가’ 네트워크와, 입력 데이터에 따라 가장 적합한 전문가를 선택해주는 '게이팅(Gating) 네트워크'로 구성되는 방식입니다. 입력이 주어지면 게이팅 네트워크가 여러 전문가 네트워크 중 해당 입력에 가장 적합한 일부만 활성화하여 결과를 생성합니다. 이러한 구조 덕분에 데이터의 다양한 특성을 각 전문가가 더 효과적으로 학습할 수 있습니다.

 

일반적인 앙상블 학습에서는 모든 모델이 동일한 전체 데이터셋을 기반으로 훈련되고, 각 모델의 예측 결과는 단순 평균, 가중 평균 또는 다수결 투표 방식으로 결합됩니다. 하지만 MoE에서는 앙상블 내 각 '전문가' 네트워크가 데이터의 하위 영역(또는 패턴)에 보다 집중하여 각각 최적화되는 특성이 있습니다. 따라서 입력 샘플에 따라 서로 다른 전문가들이 선택적으로 사용되어, 전체 연산량 증가 없이도 모델의 용량과 표현력을 효과적으로 확장할 수 있습니다.

(*앙상블 학습: 두 개 이상의 머신러닝 모델(학습기)을 결합하여, 단일 모델만 사용할 때보다 더 나은 예측 성능을 얻기 위한 기법)

 

MoE의 탄생 (1988-1991)


MoE의 초기 개념은 1988년으로 거슬러 올라갑니다. Robert Jacobs와 Geoffrey Hinton은 큰 문제를 여러 개의 ‘하위 작업’으로 나누고, 각 하위 작업을 해결하기 위해 ‘전문가(expert)’ 모델을 만들어 학습시키는 방식을 생각했습니다. 이때 각 전문가 모델은 전체 데이터셋이 아니라 자신의 특화된 하위 작업에 해당하는 데이터만 따로 학습합니다. 추론 단계에서는 '게이팅(Gating)'이라고 부르는 네트워크가 각 트레이닝 케이스에 어떤 모델, 즉 전문가를 사용할지 결정하게 됩니다.

 

“The Meta-Pi Network: Building Distributed Knowledge Representations for Robust Multisource Pattern Recognition” 논문에 수록된 SID (The Source Identification) 네트워크 아키텍처.

 

이후 1991년, Jacobs와 Hinton은 MIT의 Michael Jordan, 토론토 대학교의 Steven Nowlan과 함께 "Adaptive Mixtures of Local Experts"라는 논문에서 원래 아이디어의 개선방안을 제시했습니다. 이 논문이 바로 현대적인 MoE 아키텍처의 원조로 일컬어지고 있습니다.

 

여기에서 제안된 핵심은, 단순히 전문가들의 결과를 가중 평균으로 합치는 대신, 각 입력에 대해 ‘경쟁’을 통해 오직 하나의 전문가만 활성화하도록 만든 것입니다. 이를 위해 오차 함수(Error Function)를 새롭게 설계했는데, 전문가 모델들이 서로 다른 데이터를 더 잘 다루도록 유도하고, 각 전문가가 맡은 영역에서 제대로 전문성을 발휘할 수 있도록 학습 과정을 설계했습니다. 그래서 각 전문가가 고유한 하위 작업에 ‘진짜 전문가’로 특화될 수 있게 했고, 이를 ‘Local Expert’(특정 영역 전문 네트워크)라고 표현한 것입니다.

 

“Adaptive Mixtures of Local Experts” 논문에서 제안된 MoE 아키텍처의 개념도.


Sparsely-Gated MoE의 등장 (2017)


2017년, Noam Shazeer, Geoffrey Hinton, Quoc Le, Jeff Dean 등은 "Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer" 논문을 발표하며, MoE(Mixture of Experts) 구조를 NLP(자연어처리) 분야에 본격적으로 도입했습니다. 이 연구의 가장 큰 성과는 계산 효율성의 손실이 거의 없는 수준에서 모델 용량(Model Capacity)을 1,000배 이상 높이는 방법을 제시했다는 점입니다.

 

“Outrageously Large Neural Networks” 논문의 MoE 계층 이미지

 

이 논문에서 제시한 'Sparsely-Gated Mixture-of-Experts (MoE) Layer'의 핵심은 '조건부 계산'입니다.

 

기존 딥러닝 모델은 모든 입력 데이터에 대해, 전체 신경망의 모든 파라미터를 항상 사용합니다. 때문에 계산 비용이 지나치게 높다는 단점이 있었습니다. 그렇다면 일부 전문가 네트워크만 선택적으로 활성화해서, 필요한 부분만 계산하는 '조건부 계산'을 사용하면 되지 않을까요? 문제는 이를 실제로 구현하기 어려웠다는 것입니다. 특정 전문가들만 선택되고 나머지는 거의 선택되지 않는 불균현이 발생할 수도 있었고, 어떤 전문가를 선택할지 분기 결정을 계속 해야 하기 때문에 하드웨어 효율도 떨어졌죠. 대규모 데이터셋을 다루려면 충분한 모델 용량이 필요한데, 기존 조건부 계산 연구들은 이 부분을 제대로 해결하지 못하기도 했습니다.

 

Sparsely-Gated MoE는 이를 '희소 게이팅' 매커니즘을 통해 해결했습니다. Sparse, 즉 '희소성' 개념은 전체 모델의 모든 부분을 항상 사용하는 것이 아니라, 각 입력에 대해 필요한 일부 구성요소만 선택적으로 활성화하는 방식을 말합니다. 즉, 100명의 전문가(서브 네트워크)가 있다면, 매번 2~3명 전문가만 계산에 참여시키는 식입니다.

 

희소 게이팅 메커니즘은 아래와 같이 동작합니다:

▶ 여러개의 전문가 네트워크와 학습 가능한 게이팅 네트워크로 구성됩니다.
▶ 게이팅 네트워크는 각 입력에 대해 소수의 전문가만 동적으로 선택(예: 100개 중 2개)하여 활성화하도록 설계하였습니다. 어떤 전문가를 선택할지는 입력마다 다르게 결정됩니다. 이미지 관련 질문이면 시각 전문가가, 수학 문제면 논리 전문가가 선택되는 방식입니다.
▶선택되지 않은 전문가들은 아예 계산 과정에 참여하지 않으므로, 모델 용량이 아무리 커져도 실제 연산량 증가는 제한적입니다.
▶ 학습 과정에서도 전문가들 사이의 로드 밸런싱(부하 균형)을 위한 보조 손실 항(auxiliary loss)을 도입하여, 특정 전문가에만 편중되는 현상을 완화했습니다.

논문은 이러한 '희소성' 개념을 통해, 모델 용량을 대폭 확장하면서도 계산 비용은 크게 늘지 않는 MoE 계층의 효과를 입증했습니다.

 

 

현대 MoE의 부상 (2023–2024)


2023년 6월, 보안 전문가이자 기업가 George Hotz가 "GPT-4는 하나의 단일 모델이 아니라, 각각 약 220억 파라미터를 지닌 7개의 전문가 네트워크가 결합된 혼합형 모델"이라는 정보를 공개했습니다. 이 사실은 PyTorch 공동 개발자 Soumith Chintala와 Microsoft Bing AI의 리더 Mikhail Parakhin의 트위터 언급을 통해 더욱 주목받았습니다.

 

이후 2023년 12월, Mistral AI는 Mixtral 8×7B 모델을 선보이며, MoE 아키텍처의 실질적 돌풍을 일으켰습니다. Mixtral 8×7B는 총 470억 개의 파라미터를 가진 Sparse Mixture-of-Experts(SMoE) 구조를 적용했는데, 실제 추론 단계에서는 13억 개의 파라미터만 동원되도록 설계되었습니다. 이 모델은 성능과 효율성 면에서 Llama 2 70B보다 우수한 결과를 보였고, 오픈소스(오픈 웨이트)로 공개되어 LLM 생태계에 큰 변화를 주었습니다.

 

이 트렌드는 이후 여러 회사의 MoE 기반 모델 출시로 이어졌습니다:

▶ Databricks의 DBRX: 새로운 SOTA(Open) LLM
▶ AI21 Labs의 Jamba: 하이브리드 Transformer-Mamba 언어 모델
▶ xAI의 Grok-1
▶ Snowflake의 Arctic

주목할 만한 점은, 이들 모델이 모두 개방형(Open) 형태로 출시되고 있다는 것입니다. 이는 기업들이 생성형 AI 모델의 개방과 오픈소스 생태계 지원이라는 전략적 환경 변화를 적극적으로 반영하고 있다는 신호로 볼 수 있습니다. 최근 MoE 방식의 급부상은 AI 모델의 성능·효율 증가뿐 아니라, 개발자와 기업 모두에게 확장성과 접근성을 높이는 핵심적인 역할을 하고 있습니다.

 

 

MoE, 왜 주목받는가?: 모델 확장성과 효율의 딜레마 극복

 

AI 분야를 오랫동안 지배해 온 스케일링 법칙(Scaling Law)은 모델의 규모가 커질수록 성능이 향상된다는 경험적 원칙이었습니다. 실제로 고정된 컴퓨팅 예산 내에서 더 큰 모델을 짧게 학습시키는 것이 더 작은 모델을 오래 학습하는 것보다 효과적이었죠.

 

그러나 이 방식에는 심각한 한계가 드러나기 시작했습니다. 초기에는 파라미터 증가에 비례해 성능이 향상되었지만, 현재는 같은 수준의 성능 향상을 위해서는 훨씬 더 많은 파라미터가 필요해지는 수확 체감의 법칙에 직면하게 된 것입니다. 이로 인해 계산 비용과 에너지 소비가 기하급수적으로 증가하게 되었습니다.

 

"과연 좋은 성능을 내려면 모든 파라미터를 항상 사용해야만 할까?"라는 질문에 대해 MoE는 영리한 해답을 제시합니다. 핵심은 "모든 파라미터를 항상 사용하지 않는다"는 접근 방식입니다.

▶ 획기적인 훈련 효율성

MoE를 사용하면 기존의 밀집형(Dense) 모델보다 훨씬 적은 컴퓨팅으로도 사전 학습을 수행할 수 있습니다. 동일한 컴퓨팅 예산으로 모델이나 데이터셋의 크기를 획기적으로 확장할 수 있으며, 같은 품질에 도달하는 데 걸리는 시간도 대폭 단축됩니다.

 

▶ 비용 효율적 확장성

하드웨어 부담을 크게 늘리지 않으면서도 수조 개의 파라미터를 가진 거대 모델을 다룰 수 있게 됩니다. 예를 들어, 전체 모델에 100개의 전문가가 있더라도 각 입력마다 단 2개의 전문가만 활성화되므로, 실제 계산량은 전체 모델의 극히 일부에 불과합니다.

 

▶ 탁월한 적응적 전문화

MoE가 특히 강력한 이유는 입력값의 특성에 맞춰 전문가(Expert)를 동적으로 선택하고 활성화할 수 있다는 점입니다. 이 덕분에 모델은 특정 다운스트림 작업이나 하위 도메인 영역에 자연스럽게 특화될 수 있습니다. 마치 코드 생성에는 코드 전문가가, 수학 문제에는 논리 전문가가, 창작 글쓰기에는 언어 전문가가 활성화되는 것처럼, 필요한 곳에만 정확히 계산 자원을 투입할 수 있게 됩니다.

 

결과적으로, MoE는 "모델 용량은 크게, 계산 비용은 작게"라는 이상적인 조합을 실현하는 프레임워크로 자리매김 했습니다.

 

다음 글에서는 최근 각광받는 MoE가 어떻게 발전하고 있는지에 대해 자세히 알아보겠습니다.

 

 

Writer: Turing Post - Ksenia Se & Ben Eum

Edit: Metanet

 

#AI