2026.01.26

최근 OpenAI는 차세대 인공지능 서비스 경쟁력 강화를 위해 대규모 컴퓨팅 인프라 확충에 나서고 있습니다. 이 과정에서 선택된 파트너는 반도체 스타트업 Cerebras로, 양사는 100억 달러를 웃도는 규모의 장기 계약을 체결한 것으로 알려졌습니다. 양사는 공동 성명을 통해 Cerebras 인프라가 모델 실행 시 지연 시간을 줄이고, 대규모 사용자 유입 환경에서도 안정적인 AI 서비스 운영을 가능하게 할 것이라고 밝혔습니다.
Cerebras는 초대형 단일 칩 기반의 독자적인 반도체 아키텍처를 앞세워, NVIDIA 중심으로 형성된 GPU 시장에 새로운 선택지를 제시하고 있는 기업입니다. 이 사례는 AI 인프라가 더 이상 CPU와 GPU만의 영역에 머물지 않고, 보다 다양한 방향으로 진화하고 있음을 보여줍니다.
이번 글에서는 Cerebras의 사례처럼, CPU, GPU를 넘어, AI 인프라를 위한 새로운 하드웨어 접근 방식들을 살펴보겠습니다.
ASIC(주문형집적회로, Application-Specific Integrated Circuit)는 특정한 AI 워크로드를 처리하기 위해 목적에 맞게 설계된 주문형 반도체입니다. 주로 하이퍼스케일러의 자체 칩이나, AI 전용 하드웨어를 개발하는 반도체 스타트업들이 이 영역에 포함됩니다. 이 가운데 가장 주목받는 사례가 바로 Cerebras입니다.

이 회사의 최신 제품인 Cerebras WSE-3 칩은 지금까지 만들어진 가장 큰 AI 칩 중 하나입니다. 기존 CPU나 GPU처럼 하나의 웨이퍼를 여러 개의 작은 칩으로 나누는 방식이 아니라, 실리콘 웨이퍼 전체를 하나의 칩으로 사용하는 구조를 채택하고 있습니다.
최신 제품인 WSE-3는 면적이 46,255㎟에 달하며, 약 4조 개의 트랜지스터와 90만 개의 AI 최적화 코어, 44GB의 온칩 SRAM을 집적하고 있습니다. 각 코어는 자체 로컬 메모리를 보유하고 있으며, 웨이퍼 전반을 연결하는 초고대역폭 패브릭을 통해 연산과 메모리 간 거리를 크게 줄였습니다. 이러한 구조를 통해 단일 WSE-3 칩은 최대 125페타플롭스(PetaFLOPS)의 AI 연산 성능을 제공합니다.
Cerebras는 여기에 WSE-3를 웨이퍼 스케일 클러스터(WSC)로 확장하고, 대규모 모델 가중치를 저장하는 오프칩 메모리인 MemoryX, 노드 간 가중치 브로드캐스팅과 그래디언트 집계를 담당하는 SwarmX를 결합함으로써, 수조 개 파라미터 규모의 모델도 높은 효율로 확장할 수 있다고 설명합니다. 이는 기존 GPU 클러스터에서 빈번하게 발생하던 통신 병목을 구조적으로 줄일 수 있음을 의미합니다.
실제 적용 사례도 등장하고 있습니다. 알리바바의 Qwen3 Coder 480B Instruct 모델은 Cerebras WSE 환경에서 초당 약 2,000 토큰의 추론 속도를 기록하고 있습니다. 또한 전문가 혼합(MoE, Mixture-of-Experts) 모델의 경우, GPU 환경에서 일반적으로 요구되는 복잡한 모델 병렬 처리 없이도 단일 장치에서 보다 효율적인 학습과 추론이 가능하다는 점을 강점으로 내세우고 있습니다.
Cerebras의 접근 방식은 결국 ‘규모 자체를 아키텍처로 활용한다’는 점에서 차별화됩니다. AI 모델이 커질수록 복잡해지는 통신과 메모리 병목 문제를, 하드웨어 설계 단계에서부터 해결하려는 시도라고 볼 수 있습니다.
아마존 역시 NVIDIA 중심으로 형성된 GPU 시장에 대한 대안을 고민하지 않을 수 없었을 것입니다. 이에 따라 아마존은 AI 워크로드에 최적화된 자체 반도체를 직접 설계하며, AI 인프라에 대한 명확한 비전을 제시하고 있습니다.
아마존이 개발한 두 가지 대표적인 AI 전용 칩이 바로 AWS Trainium과 AWS Inferentia입니다. 두 칩은 모두 AI 워크로드를 염두에 두고 설계되었으며, Amazon Web Services(AWS) 생태계와 깊게 통합되어 있다는 점이 특징입니다. Trainium은 대규모 모델 학습을, Inferentia는 추론(Inference)을 각각 목표로 개발되었습니다.
두 칩 모두 내부에 맞춤형 뉴런코어(NeuronCore)를 탑재하고 있으며, 고대역폭 메모리(HBM, High-Bandwidth Memory)와 함께 텐서 연산, 집합 통신(Collective Communication), 희소성 가속(Sparsity Acceleration)을 위한 전용 엔진을 포함하고 있습니다. 이를 통해 대규모 AI 워크로드를 보다 효율적으로 처리할 수 있도록 설계되었습니다.
Trainium 2 UltraServer는 64개의 Trainium 2 칩을 하나의 시스템으로 구성한 형태로, 희소 모델 기준 최대 83.2페타플롭스(PetaFLOPS)의 FP8 연산 성능을 제공합니다. Dense FP8 워크로드에서도 약 20.8페타플롭스의 성능을 보여주며, FP8 기준 약 4페타플롭스 수준의 성능을 제공하는 NVIDIA H100 GPU와 비교하면 상당히 높은 수치입니다.
AWS Inferentia 2는 대규모 언어 모델과 확산 모델(Diffusion Model) 추론에 최적화된 칩으로, 기존 EC2 GPU 기반 인스턴스(예: G5) 대비 와트당 최대 약 50% 더 나은 성능 효율을 제공하는 것으로 알려져 있습니다. 이를 통해 대규모 추론 워크로드에서도 비용 효율적인 운영이 가능하다는 점을 강조하고 있습니다.
종합하면, AWS Trainium과 Inferentia는 생성형 AI가 요구하는 학습과 추론 환경을 각각 분리해 최적화함으로써, 규모 확장성, 성능, 비용 효율성의 균형을 맞춘 AI 인프라 솔루션이라고 볼 수 있습니다.
맞춤형 ASIC을 살펴봤다면, 이제 이름이 ‘…PU’로 끝나며 NVIDIA GPU의 강력한 대안으로 주목받고 있는 하드웨어들을 살펴볼 차례입니다.
AMD는 CPU와 GPU의 기능을 하나의 패키지로 통합한 혼합 아키텍처 기반의 처리 장치, APU(Accelerated Processing Unit)를 제시하고 있습니다. APU는 CPU와 GPU 간 데이터 이동 과정에서 발생하는 병목을 줄이고, 보다 밀접한 연산 구조를 구현하는 것을 목표로 합니다.
이러한 접근을 대표하는 제품이 AMD Instinct MI300A입니다. MI300A는 24개의 Zen 4 CPU 코어와 228개의 GPU 컴퓨트 유닛, 그리고 128GB의 대용량 HBM3 메모리를 단일 패키지에 통합한 칩입니다. CPU와 GPU가 하나의 메모리 공간을 공유하도록 설계된 점이 핵심 특징입니다.
MI300A는 AMD의 칩렛(Chiplet) 아키텍처와 3D 스태킹 기술을 기반으로 제작되었습니다. CPU와 GPU 연산 유닛은 고대역폭 메모리 바로 인접한 위치에 배치되며, AMD의 Infinity Fabric과 Infinity Cache를 통해 연결됩니다. 이를 통해 CPU와 GPU는 최대 5.3TB/s의 피크 메모리 대역폭을 공유할 수 있습니다. 또한 주요 AI 데이터 형식을 폭넓게 지원하며, 희소성(Sparsity) 연산을 위한 하드웨어 가속 기능도 포함하고 있습니다.

이와 유사한 방향의 시도는 NVIDIA에서도 확인할 수 있습니다. NVIDIA는 CPU와 GPU를 하나의 모듈로 결합한 Grace Hopper Superchip을 선보였습니다. 이 제품은 Arm 기반의 Grace CPU와 Hopper GPU를 NVLink-C2C 칩 간 연결 기술을 통해 통합한 구조입니다.
Grace Hopper Superchip 역시 CPU와 GPU가 서로의 메모리에 직접 접근할 수 있고, 원자 연산(Atomic Operation)을 수행하며, 보다 효율적인 동기화가 가능하다는 점에서 MI300A와 유사한 장점을 갖습니다. NVIDIA에 따르면, Grace Hopper Superchip은 PCIe로 연결된 H100 GPU 대비 그래프 신경망(GNN, Graph Neural Network) 학습에서 최대 8배 빠른 성능을 보이며, CPU 단독 환경과 비교할 경우 임베딩 생성 속도는 약 30배 향상된 것으로 나타났습니다.
다만 CPU와 GPU를 하나의 패키지로 결합하는 방식은 전력 소모 증가, 시스템 구성의 유연성 감소, 그리고 제조 공정의 복잡성이라는 한계도 함께 수반합니다. 이러한 특성으로 인해 APU 계열은 모든 환경을 대체하기보다는, 특정 고성능·고집적 AI 워크로드를 중심으로 활용 영역이 구분될 가능성이 큽니다.
자, 이제 지금까지 살펴본 데이터센터급 하드웨어보다 한 단계 더 작은, 보다 일상에 가까운 하드웨어의 세계로 넘어가 보겠습니다.
일반적인 칩 안에, AI 워크로드를 위한 전용 액셀러레이터가 있다고 상상해 볼까요? 바로 NPU(Neural Processing Unit)가 그 역할을 합니다.
NPU는 현대적인 프로세서 내부에 포함된 작은 AI 전용 엔진으로, 신경망 연산을 비롯해 이미지·음성 인식, 나아가 로컬 환경에서의 LLM 추론과 같은 AI 작업을 수행하도록 설계된 장치입니다. 인간의 신경망 구조에서 착안한 NPU는 대규모 행렬 곱셈, 활성화 함수 처리, 그리고 낮은 전력으로 빠르게 데이터를 이동시키는 패턴에 최적화되어 있습니다.
이미 다양한 제품과 서비스에서 NPU를 활용한 사례를 확인할 수 있습니다.
▶ Qualcomm의 Hexagon NPU는 Snapdragon 칩에 탑재되어 스마트폰, 자동차, 웨어러블 기기 등에서 음성 인식과 이미지 처리 같은 AI 기능을 지원하고 있습니다.
▶ Apple의 뉴럴 엔진은 2017년 A11 Bionic 칩에 처음 도입된 이후, 현재는 모든 아이폰과 아이패드, 그리고 애플 실리콘 기반 맥에 내장되어 Face ID, 이미지 처리, Siri와 같은 기능을 구동합니다.
▶ Intel은 Core Ultra 기반 AI PC 프로세서(Lunar Lake, Arrow Lake)에 NPU를 통합해, Windows Copilot+와 같은 AI 기능을 로컬에서 처리할 수 있도록 설계했습니다.
▶ AMD의 XDNA 및 XDNA 2 NPU는 Ryzen AI 프로세서에 탑재되어 노트북 환경에서 최대 55TOPS 수준의 AI 연산 성능을 제공합니다.
국내 기업들의 사례도 주목할 만합니다. Rebellions의 ATOM NPU는 2023년 출시된 데이터센터용 AI 가속기로, 에지 컴퓨팅과 대규모 추론 환경에 최적화되어 있으며, KT의 대형 데이터센터에 배포돼 컴퓨터 비전, 자연어 처리, 추천 모델 등의 워크로드를 처리하고 있습니다. 또한 Furiosa AI의 RNGD NPU는 2024년에 공개된 칩으로, LLM과 멀티모달 모델 추론에 특화돼 있으며, 180W TDP 기준으로 이전 세대 대비 약 2.25배 향상된 성능 대비 전력 효율을 제공하는 것으로 알려졌습니다. 이를 통해 Llama 3와 같은 생성형 AI 모델을 보다 지속 가능한 방식으로 운영할 수 있음을 강조하고 있습니다.
NPU는 온디바이스 추론(Inference)에 매우 적합한 하드웨어이지만, 대규모 언어 모델 학습이나 매우 무거운 연산을 처리할 만큼 범용적인 성능을 제공하지는 않습니다. 또한 CPU나 GPU처럼 다양한 범주의 작업을 대체하기보다는, 신경망 연산에 특화된 역할을 수행합니다. 이러한 높은 전문성과 명확한 역할 구분이 바로 NPU를 다른 처리 장치들과 구별되는 존재로 만드는 핵심 특징이라고 볼 수 있습니다.
Graphcore의 IPU(Intelligence Processing Unit)는 머신러닝 워크로드를 위해 설계된 대규모 병렬 프로세서입니다. 하나의 IPU에는 1,472개의 독립적인 프로세서 코어가 포함돼 있으며, 이들 코어는 약 9,000개의 병렬 스레드를 실행할 수 있습니다. 모든 코어는 약 900MB 규모의 고속 ‘In-Processor Memory’와 밀접하게 연결돼 있어, 데이터가 저장된 위치에서 바로 연산을 수행하는 구조를 갖습니다.
IPU는 세밀한 병렬 처리와 온칩 메모리 중심 아키텍처를 바탕으로, 그래프 기반 계산이나 불규칙하고 희소한 머신러닝 워크로드에서 강점을 보입니다. 특히 그래프 노드 간 연산을 병렬로 처리함으로써, 복잡한 데이터 흐름을 보다 효율적으로 다룰 수 있도록 설계됐습니다.
RPU(Resistive Processing Unit)는 저항 메모리를 활용한 실험적인 인메모리 컴퓨팅(In-Memory Computing) 유닛입니다. 멤리스터(Memristor)나 RRAM(Resistive Random-Access Memory)과 같은 기술을 기반으로, 메모리 배열 내부에서 직접 행렬 연산을 수행하는 것이 특징입니다.
이러한 방식은 연산을 위해 데이터를 메모리와 프로세서 사이에서 반복적으로 이동시킬 필요가 없어, 에너지 소비와 지연 시간을 크게 줄일 수 있는 잠재력을 갖고 있습니다. 2025년에는 IBM 연구진이 Conductive-Metal-Oxide/HfOx 기반 ReRAM을 활용한 아날로그 인메모리 AI 가속기를 발표하기도 했습니다. 해당 기술은 온칩 학습과 추론을 모두 지원하며, 저전압 스위칭과 멀티비트 저장이 가능하다는 점에서 차세대 AI 하드웨어로서의 가능성을 보여줍니다.
FPGA(Field-Programmable Gate Array)는 ‘재구성 가능한 AI(Reconfigurable AI)’라는 개념에서 중요한 위치를 차지하는 하드웨어입니다. 병렬 처리 구조, 메모리 구성, 지연 시간 등을 사용 목적에 맞게 세밀하게 제어하고자 할 때 강점을 발휘합니다.
GPU나 ASIC과 달리, FPGA는 모델이나 워크로드의 특성에 맞춰 하드웨어 구조를 유연하게 조정할 수 있으며, 아키텍처 변경 시에도 재프로그래밍을 통해 대응할 수 있습니다. 대표적인 사례로는 AMD의 Versal™ AI Edge Series Gen 2를 들 수 있습니다. 이 제품은 FPGA 기반 프로그래머블 로직 위에 Arm CPU와 전용 AI 엔진(AI Engine)을 동일한 다이에 통합한 적응형 SoC(System-on-Chip)로, 엣지 AI와 특수 목적 AI 워크로드를 겨냥하고 있습니다.
이처럼 다양한 처리 장치와 GPU를 대체하거나 보완할 수 있는 여러 대안들이 등장하면서, AI 산업을 둘러싼 하드웨어 환경은 점점 더 다층적인 구조로 확장되고 있습니다. 동시에 이러한 변화는 향후 AI 기술 혁신의 가능성을 넓히는 방향으로 작용하고 있습니다. 최근에는 글로벌 빅테크 기업들을 중심으로 AI 하드웨어와 관련한 새로운 프로젝트들이 잇따라 공개되고 있습니다.
Meta는 자체 AI 칩을 테스트하며 인프라 내재화를 추진하고 있으며, Alibaba를 비롯한 중국 기업들 역시 독자적인 하드웨어 생태계 구축을 목표로 AI 추론용 칩 개발에 나서고 있습니다. 이러한 흐름을 고려할 때, 앞으로도 새로운 AI 하드웨어 기술과 아키텍처 스택은 지속적으로 등장할 것으로 보입니다.
GPU와 CPU를 넘어서는 보다 넓은 시각에서 보면, AI 하드웨어 시장은 점차 세분화되고 있으며, 각 플레이어는 자신만의 기술 스택과 생태계를 중심으로 차별화를 시도하고 있습니다.
이 과정에서 개발자와 기업들은 다양한 하드웨어 환경 속에서 호환성, 소프트웨어 지원 수준, 그리고 비용 효율성을 종합적으로 고려해야 하는 과제에 직면하게 됩니다. AI 인프라 전략 역시 이제는 단일 하드웨어 선택을 넘어, 어떤 조합과 구조가 자사의 서비스와 워크로드에 가장 적합한지 판단하는 문제로 확장되고 있다고 볼 수 있습니다.
Writer: Turing Post - Ksenia Se & Ben Eum
Edit: Metanet