KR EN

Blog

Detail Page | Tech 메인메뉴

Detail Page | Tech

AI 확장의 다음 단계, MoE 2.0

2025.11.17

 

지난 글에서는 MoE(Mixture of Experts)의 개념과 장점을 살펴봤습니다.

 

MoE는 복잡한 AI 모델을 더 효율적으로 운영할 수 있게 해 주는 핵심 기술입니다. 필요한 작업에 따라 일부 파라미터(모델 내부의 설정값)만 사용하도록 설계되어, 성능은 유지하면서도 비용과 계산량을 줄일 수 있죠. 이러한 이유로 딥시크(DeepSeek), 구글, 미스트랄, 알리바바, 메타 등 글로벌 기업들이 MoE 기반의 LLM을 잇달아 내놓고 있습니다.

 

그러나 아무리 혁신적인 기술이라도 시장의 트렌드가 바뀌고 새로운 환경에 놓이게 되면 재검토가 필수적입니다. 오늘날 AI 서비스의 운영 효율성과 개발 민첩성에 대한 요구가 극대화되면서, MoE 아키텍처는 한 단계 진화가 필요했습니다. 오늘은 차세대 MoE 모델의 발전 방향이 어떤 곳을 향하고 있는지, 그리고 왜 이런 기법들이 특별한지, 그리고 왜 ‘스케일링이 잘 되는 오픈소스 모델’을 만들기 위한 가장 명확한 경로를 보여주는지, 한 번 함께 살펴보겠습니다.

 


S'More (Structural Mixture of Residual Experts): 

LoRA와 MoE의 전략적 결합


2025년 4월 메타(Meta)에서 발표한 S'MoRE (Structural Mixture of Residual Experts)는 LLM을 효과적으로 훈련시키고 파인튜닝하는 방법에 대한 새로운 대답을 제시합니다. S'MoRE는 AI 영역의 두 가지 핵심 기술인 LoRA (Low-Rank Adaptation)와 MoE를 융합하여, LoRA의 탁월한 효율성과 MoE의 강력한 유연성 및 성능이라는 이점을 동시에 확보했습니다.

 

 

 

LoRA는 LLM 파인튜닝 시 계산 부담을 획기적으로 줄여주는 효율화 기법입니다. 비유하자면, 전통적인 파인튜닝이 '집 전체를 재건축'하는 개념이라면, LoRA는 '기존의 집은 그대로 두고 필요한 부분에만 동작을 조정하는 작은 확장 모듈(저랭크 행렬)을 추가'하는 개념으로 볼 수 있습니다. S'MoRE는 이러한 LoRA 스타일의 저랭크 어댑터와 계층적인 MoE 트리 구조를 융합하여, 단순한 결합을 넘어선 시너지를 창출합니다.  


S'MoRE 기법으로 만들어진 시스템은 아래와 같이 작동합니다:

▶ 모델의 '전문가(Experts)'를 잔차(Residuals)라는 작은 레이어로 조정하여 분해합니다.
▶ 이 잔차들은 나무 가지처럼 트리 구조로 연결되어 모델이 정보를 어떻게 라우팅할지 결정합니다.
▶ 라우터가 각 토큰을 적합한 '잔차 전문가' 서브 트리로 보내 출력값을 계산합니다.

이러한 트리 기반의 구조적 유연성은 엄청난 전략적 이점을 가져옵니다. S'MoRE는 작은 모듈을 레이어 전체에서 재사용하고 서로 다른 전문가 경로가 동일한 구성 요소를 공유할 수 있게 함으로써, 실제보다 훨씬 더 많은 전문가를 가진 것처럼 작동할 수 있습니다. 이는 물리적인 파라미터 수를 늘리지 않고도 전문가를 선택할 수 있는 '선택 공간'을 기하급수적으로 확장하는 혁신입니다. 즉, 비용이 많이 드는 '물리적 규모' 대신, 비용 효율적인 '구조적 유연성'을 통해 성능을 레버리지하는 새로운 AI 설계 패러다임을 보여줍니다.

 

 

S'MoRE는 기술적 우수성을 넘어, AI 개발의 재무적 효율성에 근본적인 변화를 가져옵니다. S'MoRE는 LLaMA-3 변형 모델을 포함한 다양한 모델에서 테스트되었으며, 기존의 최고 모델들을 능가하는 성과를 보였습니다.

▶ 훈련 비용 절감

S'MoRE는 작은 저랭크 행렬과 경량의 프로젝션 레이어만 훈련하기 때문에, 기존 기법 대비 약 16% 적은 훈련 가능 파라미터를 사용합니다.
 

▶ 성능 향상

훈련 파라미터는 줄었음에도 불구하고 정확도는 최대 2.1%까지도 높은 수준을 달성했습니다.

 

 


 

그리고, 그 외에도 S’MoRE의 다양한 장점들이 있습니다. S'MoRE는 계산의 오버헤드가 낮아 총 계산 비용이 LoRA와 거의 동일하며, 라우팅 오버헤드가 최소화되어 일반 기법 대비 5~10%에 불과할 때도 있습니다. 확장이 쉬운 설계 덕분에, 2개 레이어에서 3개 레이어로 전환할 때 단 1-7%의 적은 추가 비용만으로 성능이 향상되며, 심지어 파라미터 수를 27% 줄이면서도 더 높은 정확도를 보여준 사례는 S'MoRE가 AI 개발의 전략적 비용 효율성을 극대화함을 입증합니다.

 


Symbolic-MoE : 지능적 기술 기반 협업 시스템 구축

 

전통적인 MoE 접근법은 전문화된 모델 그룹을 활용하지만, 처음부터 학습을 다시 해야 하는 비용 문제나 비현실적인 모델 로드 문제 등이 있었습니다. 노스캐롤라이나 대학(UNC)에서 2024년 3월에 발표한 Symbolic-MoE는 이러한 연속적인 재학습 과정을 피하고, 여러 모델의 출력값을 효율적으로 통합하는 혁신적인 기법을 선보였습니다.  

 

Symbolic-MoE는 전체적인 '작업'보다는 '개별적인 질문'의 내용에 초점을 맞춰, 질문이 요구하는 특정 스킬셋에 기반하여 최고의 전문가를 선택합니다. 예를 들어, 질문이 대수학에 관한 것이라면 대수학 전문가를 선택하고, 확률에 관한 것이라면 확률 전문가를 선택하는 방식입니다.  

 

전통적인 MoE가 '모델의 파라미터 공간'에서 작동하는 관점이라면, Symbolic-MoE는 모델이 내놓는 '출력의 공간'에 초점을 맞춥니다. 즉, 텍스트 기반의 추론을 통해 다양한 모델의 응답을 통합하는 방식입니다. 이는 새로운 모델을 도입하거나 시스템을 업데이트할 때 물리적으로 모델을 재훈련하거나 수정할 필요 없이, 지식 통합만으로 시스템을 유연하게 운영할 수 있음을 의미합니다. Symbolic-MoE는 AI 모델 관리를 '하드코딩' 방식에서 '지능형 에이전트 오케스트레이션' 방식으로 전환시킨 것으로 해석할 수 있습니다.

 

Symbolic-MoE의 운영 전략은 AI 서비스의 효율성 측면에서 결정적인 경쟁 우위를 제공합니다. 이 기법은 쿼리를 그룹화하고, 선택된 각 모델에 대해 모든 쿼리를 '단일 배치(Single Batch)'로 실행합니다. 덕분에 모델을 반복적으로 로드할 필요가 없어, 속도가 빠르고 리소스 요구 사항이 적습니다.

 

이러한 배치 추론(Batch Inference) 전략 덕분에 Symbolic-MoE는 멀티 에이전트 방식보다 실행 시간이 약 44% 짧았습니다. 또한, 단일 GPU에서 최대 16개의 모델을 처리할 수 있으며, 4개 GPU 환경에서 테스트했을 때는 MoA(Mixture-of-Agents)와 같은 멀티 에이전트 방식보다 거의 2배 빠른 속도를 보여주었습니다. 이러한 효율성은 복잡한 멀티 에이전트 시스템에서 발생하는 빈번한 모델 I/O 및 지연 시간(Latency) 문제를 소프트웨어 전략으로 해결하여, 실시간 애플리케이션에 대한 적용 가능성을 크게 높여줍니다.  


각각의 쿼리에 가장 적합한 전문가(Expert)와 최고의 애그리게이터 (Aggregator)를 자동적으로 선택하고, 최적화를 위해서 배치 처리 (Batch Inference)라는 접근 방식을 사용해서, Symbolic-MoE는 더 복잡한 멀티 에이전트 형태의 구축을 시도하는 다른 시스템들보다 뛰어난 성능을 보여주면서도 더 간단하고 효과적인 솔루션을 제공합니다.

 

▶ 성능의 향상
Symbolic-MoE는 MMLU-Pro, AIME, GPQA, MedMCQA 같은 벤치마크에서 최고 수준의 성능을 보여주는 멀티 에이전트 방식보다 평균 8.15% 더 높은 성능을 보입니다. 심지어 GPT-4o-mini보다 더 높은 정확도를 보여줍니다.

 

▶ 대형 모델과 호환 가능
주로 7-8B 파라미터 사이즈의 모델을 사용하는데도, Symbolic-MoE는 70B 사이즈 정도 되는 더 큰 모델과 동등하거나 더 나은 성능을 보여 줍니다. 이렇게 효율성이 높아서, 하드웨어 자원이 제한된 경우에도 접근성이 높습니다.

 

▶ 높은 효율성
단일 GPU에서 실행될 때, MoA(Mixture-of-Agents)와 같은 멀티 에이전트 방식보다 실행 시간이 44% 정도 짧습니다. 배치 추론 (Batch Inference) 기법 덕분에 단일 GPU에서 최대 16개 까지의 모델을 처리할 수 있고, 필요한 경우에는 여러 개의 GPU에 걸쳐 스케일링할 수 있습니다 - 4개의 GPU를 사용하는 환경에서 테스트를 해 보면, MoA보다 거의 2배 빠른 속도를 보여줍니다.

 

▶ 확장 (Scaling)이 용이함
Symbolic-MoE는 많은 수의 전문가를 사용할 때도 효율적으로 확장할 수 있습니다. 이건, 배치 추론 전략 (Batch Inference Strategy)를 활용해서 모델 로딩/언로딩을 빈번하게 하지 않아도 되도록 했기 때문에 가능합니다.

 

▶ 우수한 유연성
이 접근 방식은 모듈식으로 구성되어 있어서, 모델을 수정하거나 재훈련할 필요가 없이 다양한 작업에 적응이 가능합니다. 또, 처음부터 재훈련하지 않고도 새로운 모델을 도입할 수 있기 때문에 쉽게 업데이트하고 적용할 수 있습니다.


MoE 2.0이 보여주는 세 가지 핵심 방향
 

앞서 말씀드린 S'MoRE와 Symbolic-MoE, 이 두 가지의 기법을 잘 살펴보면, 현 시점 점점 더 큰 주목을 받고 있는 세 가지의 혁신적인 아이디어를 확인할 수 있습니다.

 

▶ 계층적 라우팅
S'MoRE의 계층적 잔차 라우팅 (Hierarchical Residual Routing)은, 파라미터의 숫자를 늘리지 않고서도 전문가를 선택할 수 있는 ‘선택 공간’을 스케일링할 수 있게 해 줍니다.

 

▶ 스킬 기반 전문가 선택
Symbolic-MoE의 ‘스킬을 기반으로, 쿼리를 받았을 때 모델의 기술을 확인해서 전문가를 선택’하는 기법은, 각각 특정한 질문에 필요한 적합한 전문가를 더 잘 선택할 수 있는 가능성을 열어줍니다.

 

▶ 배치 및 샤딩 기법
GPU를 더 잘 활용하도록 하는 ‘배치 (Batch)’, ‘샤딩 (Sharding)’ 기법은, 10개 이상의 전문가를 활성화할 때도 지연 시간을 낮은 수준으로 유지할 수 있게 해 줍니다.

 


‘MoE라는 아키텍처가 새로운 성장의 단계에 진입하고 있다’는 걸 보여주는 다른 시그널들도 있습니다.

 

메타(Meta)가 최근 출시한 Llama 4 Scout 및 Maverick 모델이 MoE 아키텍처로 처음 출시되었다는 사실은 이를 명확히 보여줍니다. Llama 4 Scout 모델은 170억 개의 활성 파라미터를 가지며 16개의 전문가를 활용하면서도 단일 NVIDIA H100 GPU에서 효율적으로 작동합니다. 특히 주목할 점은 블룸버그의 보도와 같이, 메타가 MoE 아키텍처를 '고성능 애플리케이션에서 대규모 추론 작업의 비용을 줄이기 위한 주요 전략'의 한 요소로 인식하고 있다는 점입니다. 이는 MoE 2.0이 R&D 효율성을 넘어, AI 서비스 운영 비용을 관리하는 핵심 수단이 되었음을 의미합니다.

 

또한 eMoE, MoEShard, DeepSpeed-MoE, Speculative-MoE, MoE-Gen 등 MoE 추론 최적화를 위한 다양한 연구가 동시다발적으로 진행되고 있습니다.

 

 

새로운 MoE 2.0 로의 진화가 중요한 이유


메타의 Llama와 올해 초 DeepSeek 사례로 오픈소스 AI에 대한 관심이 폭발적으로 증가했습니다. 오픈소스 모델이 빠르게 폐쇄형 모델을 따라잡고 있지만, 여전히 자본력을 갖춘 빅테크들은 토큰당 1~2% 파라미터만 활성화하는 '조 단위 모델'로 나아가고 있습니다.

 

오픈소스 커뮤니티도 효율성 향상을 추구하지만 대규모 훈련 자원은 턱없이 부족합니다. MoE 기법은 계산 비용을 크게 늘리지 않고도 성능을 높이는 실용적 해결책입니다. S'MoRE나 Symbolic-MoE 같은 기법으로 8B 파라미터의 작은 Dense Model에서 시작해, 특화된 저랭크 전문가나 플러그인 모델을 통합하면 거대한 GPU Farm 없이도 강력한 시스템을 만들 수 있습니다.

 

또한, 개발자들의 관심은 모델 구축을 넘어 추론(Inference) 단계의 효율성을 극대화하는 데 집중되고 있습니다. eMoE, MoEShard, DeepSpeed-MoE, Speculative-MoE, MoE-Gen 같은 기술들이 활발하게 연구되는 것은 MoE 모델을 통한 추론의 한계를 넓히고 있으며, AI 서비스의 무게 중심이 '모델의 훈련'에서 '모델의 운영 효율화'로 옮겨가고 있음을 강력하게 시사합니다.

 

 

Writer: Turing Post - Ksenia Se & Ben Eum

Edit: Metanet

 

#AI