2026.02.23

앞선 글에서 살펴봤듯이, Mamba는 긴 입력 시퀀스를 효율적으로 처리할 수 있는 아키텍처입니다. 특히 메모리 사용량을 크게 늘리지 않으면서도 긴 입력을 빠르게 처리할 수 있다는 점에서, 트랜스포머의 강력한 경쟁자로 평가받고 있습니다.
다만 Mamba는 기본 구조만으로는 멀티모달 데이터, 즉 텍스트·이미지·오디오처럼 서로 다른 형태의 데이터를 함께 처리해야 하는 작업에서는 충분히 효율적이지 않을 수 있습니다. 이러한 한계를 보완하기 위해 등장한 아이디어가 바로 Mixture-of-Mamba(MoM)입니다.
이름에서 짐작할 수 있듯이, MoM은 이미 널리 알려진 MoE(Mixture-of-Experts, 전문가 혼합) 개념을 Mamba 구조에 적용한 방식입니다. 여러 ‘전문가’를 상황에 따라 선택적으로 활성화하는 구조를 도입함으로써, 다양한 모달리티가 함께 등장하는 환경에서도 SSM 기반 모델이 보다 효과적으로 작동하도록 만든 것입니다.
MoM의 핵심 개념 중 하나는 'Modality-Aware Sparsity'입니다. 말 그대로, 입력 데이터의 모달리티에 따라 일부 경로만 선택적으로 활성화하는 구조를 의미합니다. 이를 통해 Mamba의 코어 구조를 유지하면서도, 멀티모달 데이터를 보다 효율적으로 처리할 수 있는 아키텍처로 확장하게 됩니다.
MoM은 기존 Mamba를 어떻게 변화시키는 것일까요? 그리고 이 구조는 실제로 어떤 방식으로 작동할까요?
앞서 살펴본 것처럼, Mamba는 선택적 상태 공간 모델(Selective State Space Model, SSM) 계열 가운데에서도 매우 강력한 모델 중 하나입니다. SSM은 문장이나 비디오처럼 순차적으로 이어지는 데이터, 즉 시퀀스 데이터를 효율적으로 처리하도록 설계된 구조입니다.
하지만 한 가지 한계가 있습니다. 기본적인 Mamba 구조는 입력 데이터의 유형을 구분하지 않고, 텍스트·이미지·음성과 같은 다양한 입력을 동일한 방식으로 처리합니다. 이 때문에 여러 모달리티를 오가야 하는 멀티모달 작업에서는 Mamba의 강점이 충분히 발휘되지 못하는 경우가 있습니다.
그래서 다음과 같은 질문이 제기되었습니다. “어떻게 하면 Mamba의 장점을 유지하면서, 멀티모달 환경에서도 더 잘 작동하도록 만들 수 있을까?”
이에 대해 스탠포드 대학교, 카네기 멜론 대학교, 그리고 메타 FAIR의 연구자들이 제시한 해법이 바로 MoE(Mixture-of-Experts, 전문가 혼합) 개념의 적용입니다. MoE는 입력에 따라 모델의 일부 경로만 선택적으로 활성화하는 구조입니다. 모든 파라미터를 항상 사용하는 대신, 상황에 맞는 ‘전문가’만 동작하도록 만드는 방식입니다. 특히 이들은 입력의 유형에 따라 서로 다른 구성 요소를 활성화하는 MoT(Mixture-of-Transformers) 구조에서 영감을 받았습니다. 그리고 이를 SSM 기반 아키텍처에 적용해, 새로운 모델인 MoM(Mixture-of-Mamba)을 설계했습니다.
MoM은 Mamba의 계산 효율성을 유지하면서도, 다양한 데이터 유형을 더 잘 구분하고 그 특성에 맞는 연산 경로를 선택하도록 만든 구조입니다. 즉, 효율성과 유연성을 동시에 확보하려는 시도라고 볼 수 있습니다.
그렇다면 MoM은 구체적으로 어떤 방식으로 Mamba를 멀티모달 모델로 확장하는 걸까요? 이제 그 구조를 간단히 살펴보겠습니다.
논문 표현을 그대로 옮기면, “MoM은 Mamba 블록의 모달리티별 매개변수화를 통해 Modality-Aware Sparsity를 도입한다”고 설명합니다. 이 문장을 단계적으로 풀어보겠습니다.
MoM의 핵심은 Modality-Aware Sparsity를 Mamba의 코어 구조에 통합하는 것입니다. 즉, 모든 데이터에 동일한 파라미터를 적용하는 대신, 입력 유형(텍스트, 이미지, 음성 등)에 따라 서로 다른 처리 경로를 선택하도록 설계된 구조입니다.
MoM은 ‘Mixture-of-Mamba’ 블록을 기반으로 구성됩니다. 이 블록은 입력 데이터 유형에 따라 별도의 처리 규칙을 적용하면서도, 공통으로 사용 가능한 구성 요소는 공유하는 방식으로 설계됩니다. 다시 말해, 완전히 분리된 모델이 아니라, 선택적으로 분기하고 핵심은 공유하는 구조입니다.

이 메커니즘은 일종의 동적 라우팅 시스템처럼 작동합니다.
먼저, MoM은 ‘모달리티 마스크(Modality Mask)’를 사용해 입력 토큰이 텍스트인지, 이미지인지, 음성인지 구분합니다.
그 다음, 식별된 모달리티에 맞는 가중치 집합을 선택적으로 활성화합니다. 이 과정이 바로 ‘모달리티별 매개변수화(Modality-Specific Parameterization)’입니다.
이 구조 덕분에 서로 다른 모달리티의 토큰을 동시에 처리하면서도, 불필요한 연산을 줄일 수 있습니다. 즉, 학습과 추론 모두에서 효율성을 유지할 수 있습니다.
MoM은 Mamba의 주요 계층을 멀티모달 처리에 맞게 조정합니다.
입력 계층 일반적인 Mamba는 모든 입력을 동일한 방식으로 처리합니다. 반면 MoM은 데이터 유형별로 서로 다른 입력 처리 파라미터를 사용합니다. 각 모달리티에 맞는 초기 변환 과정을 거치도록 설계된 것입니다.
중간 계층
출력 계층 결과적으로 MoM은 각 데이터 유형에 맞는 처리 방식을 적용하면서도, 계산 효율을 크게 희생하지 않도록 설계되어 있습니다. |
MoM이 모든 것을 분리하는 것은 아닙니다. 핵심적인 계산 구성 요소는 공유합니다.
상태 전이(State Transitions)
1D 컨볼루션 계층(1D Convolutional Layers) |
먼저, 특정 모달리티에 해당하는 매개변수만 선택적으로 활성화되기 때문에, 계산량과 학습 비용을 줄일 수 있습니다. 모든 경로를 항상 사용하는 Dense 모델과 달리, 필요한 부분만 작동하므로 연산과 훈련 속도 측면에서 효율적입니다.
‘Modality-Aware Sparsity’의 가장 큰 장점은 각 모달리티에 특화된 처리가 가능하다는 점입니다. 텍스트, 이미지, 음성 등 서로 다른 데이터 유형의 구조적 특성을 반영해 처리할 수 있기 때문에, 동일한 연산을 일괄적으로 적용하는 방식보다 더 적합한 결과를 기대할 수 있습니다.
또한 MoM은 확장성과 유연성 측면에서도 강점을 보입니다. 디퓨전 기반 이미지 학습이나 토큰 기반 처리 등 다양한 학습 전략과 잘 결합되며, 서로 다른 학습 설정에서도 안정적으로 작동합니다. 실험 결과에 따르면, 세 가지 주요 멀티모달 설정 (텍스트+연속 이미지, 텍스트+이산 이미지, 텍스트+이미지+음성)에서 MoM은 전통적인 Dense 모델 대비 일관되게 우수한 성능을 보였습니다.
계산 효율성 측면에서도 개선 효과가 보고되었습니다. 성능을 유지하거나 향상시키면서도, 비용을 최대 약 65%까지 절감할 수 있는 것으로 나타났습니다. 또한 동일한 정확도에 도달하는 데 필요한 학습 단계 수가 더 적어, Mamba Dense나 Flex-Attention Transformer 대비 학습 속도에서도 이점을 보입니다. 기본 모델과 비교했을 때 손실(loss)을 유의미하게 낮추며, 새로운 데이터가 들어와도 비교적 안정적으로 대응하는 모습을 보입니다. 즉, 일반화 성능 측면에서도 긍정적인 결과를 보여줍니다.
마지막으로, 연산량 감소는 곧 에너지 소비 감소로 이어집니다. 이는 비용 절감뿐 아니라, 보다 친환경적인 AI 학습 구조라는 측면에서도 의미를 가집니다. 추가적으로, MoM을 기존 MoE 구조와 결합할 경우 멀티모달 환경에서의 효율성을 더욱 개선할 가능성도 제시되고 있습니다.
MoM은 Mamba가 멀티모달 데이터를 더 잘 처리하도록 개선한 구조이지만, 몇 가지 한계도 분명히 존재합니다.
먼저, Modality-Aware Sparsity를 구현하기 위해서는 모달리티별 매개변수화가 필요합니다. 이로 인해 표준 SSM이나 트랜스포머 구조에 비해 구현과 최적화가 더 복잡해질 수 있습니다. 또한 Mamba 블록 내부에서 여러 Projection 구성 요소를 분리해 관리해야 하기 때문에, 모델 구조가 단순한 Dense 모델보다 복잡해집니다. 그 결과 디버깅이나 파인튜닝 과정이 더 까다로워질 가능성이 있습니다.
학습 과정 역시 쉽지 않습니다. 텍스트, 이미지, 음성 표현 간의 균형을 신중하게 맞춰야 하므로, 멀티모달 트레이닝 자체에서 추가적인 오버헤드가 발생할 수 있습니다.
특히 음성 데이터의 경우 여전히 별도의 토큰화 방식이나 특수한 전처리 기법이 필요합니다. 완전히 통합된 처리 구조라고 보기는 어렵습니다.
또 하나의 제약은, MoM의 효율성이 개별 구성 요소의 개선보다는 공통 모듈의 최적화에 크게 의존한다는 점입니다. 공유된 핵심 연산이 충분히 최적화되지 않으면, 기대한 수준의 효율을 얻기 어렵습니다.
무엇보다 중요한 점은, MoM이 실제 산업 현장의 대규모 애플리케이션에서 얼마나 의미 있는 성능 향상을 제공하는지에 대해서는 아직 충분한 검증이 이루어지지 않았다는 사실입니다. 현재까지도 GPT나 LLaMA와 같은 대규모 트랜스포머 모델이 일부 NLP 벤치마크에서는 더 높은 성능을 보이고 있습니다. 이는 MoM이 구조적 장점에도 불구하고, 절대적인 성능 측면에서는 아직 한계가 있을 수 있음을 시사합니다.
그럼에도 불구하고, 이러한 제약은 향후 개선이 필요한 영역을 보여주는 지점이기도 합니다. MoM은 최소한 Mamba를 멀티모달 환경에서 실질적인 트랜스포머 대안으로 확장하려는 중요한 시도라는 점에서 의미를 가집니다.
지금까지 ‘Modality-Aware Sparsity’ 개념을 적용해 다양한 입력 유형을 효율적으로 처리하는 개선된 상태 공간 모델, MoM(Mixture-of-Mamba)을 살펴보았습니다. MoM은 멀티모달 AI 환경을 위해 설계된 모델로, 텍스트·이미지·음성 작업 전반에서 계산 효율성과 학습 효율 측면의 이점을 제공합니다. 빠르고, 확장 가능하며, 자원 활용 측면에서도 효율적인 구조를 지향합니다.
MoM의 의미를 정확히 이해하려면, 다른 접근법과의 차이를 분명히 구분할 필요가 있습니다. Sparse Transformer는 어텐션 메커니즘에 희소성을 도입해 연산을 줄이지만, 여전히 어텐션 중심 구조를 유지합니다. 또한 특정 작업, 예를 들어 텍스트-이미지 생성과 같은 영역에 보다 집중하는 경향이 있습니다. MoE-Mamba나 BlackMamba와 같은 유사 모델은 MLP 계층에 희소성을 적용하는 방식으로 효율성을 개선합니다. 그러나 Mamba의 핵심 구조 자체를 바꾸지는 않습니다.
MoM은 Mamba 블록 내부에 Modality-Aware Sparsity를 적용하는 접근 방식을 통해, 다양한 데이터 유형에 걸쳐 특화된 처리를 가능하게 합니다. 이는 단순히 일부 계층을 수정하는 수준이 아니라, 트랜스포머를 넘어 ‘Sparse’ 아키텍처를 확장하는 시도라고 볼 수 있습니다. 이 모델은 SSM 영역에서 하나의 중요한 발전 단계로, 멀티모달 AI 시대에 SSM이 지닌 잠재력을 보여주는 사례라고 할 수 있습니다.
앞으로는 특히 MoM과 MoE를 결합하는 방식이 어떤 성능을 보여줄지도 주목할 만합니다. 구현이 복잡해질 수는 있지만, 그만큼 효과도 클 가능성이 있으며, 향후 강력한 하이브리드 모델의 기반이 될 수 있을 것입니다.
Writer: Turing Post - Ksenia Se & Ben Eum
Edit: Metanet