2026.01.16

AI, 그리고 엔비디아는 이제 누구나 아는 이름이 되었습니다. GPU(Graphics Processing Unit) 역시 더 이상 낯선 용어가 아닙니다. 업계의 리더인 엔비디아는 끊임없이 새로운 칩을 선보이며 AI 하드웨어의 발전을 주도하고 있습니다. 이번 글에서는 AI를 지탱하는 근본적인 하드웨어, CPU·GPU·TPU를 차례로 살펴보겠습니다.
이 세 가지 하드웨어는 모두 처리 장치(PU, Processing Unit)입니다. 소프트웨어 프로그램의 명령을 실행해 계산을 수행하는 특수 전자 회로로, 흔히 컴퓨터 시스템의 ‘두뇌’에 비유됩니다. 처리 장치는 산술·논리·제어·입출력 연산을 수행해 데이터를 의미 있는 정보로 변환하며, 각 유형은 서로 다른 워크로드에 최적화되어 설계되었습니다.
중앙처리장치(CPU)는 범용 컴퓨팅과 순차적인 작업 처리를 위해 개발된 가장 전통적인 형태의 처리 장치입니다. CPU의 기원은 1945년 존 모클리(John Mauchly)와 J. 프레스퍼 에커트 주니어(J. Presper Eckert Jr.)가 개발한 에니악(ENIAC)에서 찾을 수 있습니다. 에니악은 프로그래밍이 가능한 최초의 전자식 범용 디지털 컴퓨터로, 18,000개의 진공관을 사용해 다양한 수치 문제를 재프로그래밍 방식으로 해결했습니다.
같은 해 발표된 존 폰 노이만(John von Neumann)의 EDVAC 보고서 초안은 데이터와 명령어를 동일한 메모리에 저장하는 개념을 제시했으며, 이 저장 프로그램 구조는 오늘날 CPU 아키텍처의 근간이 되었습니다.
1950년대 중반에는 진공관이 트랜지스터로 대체되며 컴퓨터는 더 작고 빠르며 전력 효율이 높아졌습니다. 1960년대에는 집적회로(IC)가 등장해 여러 트랜지스터를 하나의 실리콘 칩에 통합할 수 있게 되었고, 1971년 인텔(Intel)은 세계 최초의 상용 마이크로프로세서 4004를 출시했습니다. 이는 단일 칩에 구현된 4비트 CPU로, 현대 CPU의 출발점이라 할 수 있습니다. 이후 Intel 8086은 오늘날 x86 CPU 계열의 조상이 되었고, 성능과 효율을 동시에 높이기 위한 최신 해법으로는 하나의 칩에 여러 CPU를 포함하는 멀티코어 프로세서 구조가 정착되었습니다.

최신 CPU 안에는 어떤 요소들이 있고 작동은 어떻게 할까요? CPU의 핵심에는 전기 신호를 보내 컴퓨터를 제어하고 데이터와 명령어를 올바른 위치로 보내는 복잡한 회로로 이루어진 제어 장치(Control Unit)가 있습니다. 산술논리장치(ALU, Arithmetic Logic Unit)는 수학 및 논리 연산을 처리하고, 레지스터와 캐시는 프로세서가 자주 필요로 하는 데이터를 저장하는 작지만 초고속의 저장 공간을 제공합니다.
CPU에는 코어(Core)도 포함되어 있습니다. 코어는 CPU 내부에 있는 독립적인 처리 장치로, 각각이 명령어를 독립적으로 처리할 수 있습니다. 또한 스레드(Thread)는 하나의 코어가 여러 명령어 흐름을 동시에 처리할 수 있게 해줍니다. 이 모든 장치는 클럭(Clock)의 리듬과 박자에 맞춰 작동하며 동기화됩니다. 데이터 전송을 위한 버스(Bus), 다음에 실행할 명령어를 추적하는 명령 레지스터(Instruction Register)와 포인터(Pointer) 같은 지원 구성 요소들은 시스템을 부드럽게 연결하여 명령어가 한 단계에서 다음 단계로 원활하게 이동하도록 합니다.
CPU는 '간단하지만 강력한' 사이클로 작동합니다: 가져오기(Fetch) → 해석(Decode) → 실행(Execute). 메모리에서 데이터나 명령어를 가져오고, 이를 하드웨어가 이해할 수 있는 신호로 해석한 뒤, 필요한 연산(예: 계산, 값 비교, 데이터 전송)을 실행합니다. 현대 프로세서에서는 이 사이클이 초당 수십억 번 실행되는데, 여러 개의 코어와 스레드가 병렬로 작동하면서 성능을 높여줍니다. CPU는 마치 잘 조직된 팀처럼 작동합니다. 코어 수가 적을 경우(1~2개)는 효율성에 중점을 두게 되고, 코어 수가 많아지면 고성능 작업을 처리하는 데 적합하게 됩니다.
현재 주요 CPU 제조사는 다음과 같습니다.
| ▶인텔(Intel): 코어(Core, 소비자용), 제온(Xeon, 서버/워크스테이션용), 펜티엄(Pentium), 셀러론(Celeron, 저가형) 칩을 생산 ▶AMD: 라이젠(Ryzen, 소비자용/고성능), 에픽(EPYC, 서버용) 프로세서, 그리고 CPU와 GPU를 하나의 칩에 결합한 APU(가속처리장치)를 제공 |
AI 작업과 관련하여 CPU가 가진 중요한 한계는, CPU가 순차적이고 범용적인 작업에 최적화되어 있어 대규모 병렬 행렬 연산에는 GPU나 특수 칩에 비해 훨씬 느리고 효율이 떨어진다는 점입니다.
GPU(그래픽처리장치; Graphics Processing Unit)는 대규모 병렬 데이터 처리와 높은 처리량을 감당하는 데 최적화되어 있습니다. 원래 GPU는 이미지와 비디오의 컴퓨터 그래픽을 가속화하기 위해 개발되었지만, 나중에는 그래픽이 아닌 계산 작업에도 유용하다는 것이 밝혀졌습니다. 이제 GPU는 데이터 집약적인 작업이나 AI 모델 학습처럼 병렬 처리가 효과를 보이는 작업에 널리 사용되고 있습니다.
오늘날 GPU는 AI의 성능을 좌우하는 중요한 드라이버이며, AI의 계산 능력을 평가하는 핵심 기준이 되었습니다. GPU라는 용어는 1999년 엔비디아가 지포스 256(GeForce 256)을 출시하면서 공식적으로 사용되었습니다. 엔비디아는 이를 세계 최초의 GPU라고 불렀고, 공식적인 GPU의 정의는 'a single-chip processor with integrated transform, lighting, triangle setup/clipping, and rendering engines(변환, 라이팅, 삼각 설정/클리핑, 렌더링 엔진이 통합된 단일 칩 프로세서)'입니다.
GPU는 어떻게 작동할까요? GPU 내부에는 실리콘 칩에 새겨진 수십억 개의 작은 트랜지스터가 있는데, 이 트랜지스터들은 수천 개의 경량 프로세싱 코어로 구성되어 있습니다. 이 코어들은 복잡한 배선으로 연결되고, 고대역폭 메모리와 캐시가 지원하여 데이터가 빠르게 흐를 수 있게 합니다. 전체 패키지는 보호 재료와 냉각 시스템으로 밀봉되어 안정성을 유지합니다.
CPU와 다르게, GPU는 병렬 처리에 최적화되어 있습니다. 큰 작업을 수천 개의 작고 독립적인 작업으로 나누어 여러 개의 코어에 분산하여 동시에 계산합니다. 그래서 GPU는 방대한 데이터셋에서 반복적인 행렬 및 텐서 계산이 필요한 AI 모델 학습과 실행에 완벽하게 적합합니다. GPU의 병렬 구조 덕분에 학습 시간이 몇 달에서 며칠로 줄어들고, 예를 들어 챗봇 같은 실시간 애플리케이션에 필요한 추론(Inference, 학습된 모델이 새로운 데이터에 대해 예측이나 판단을 내리는 과정)도 빠르게 처리할 수 있습니다.
GPU를 만드는 글로벌 리더는 엔비디아입니다. 이 회사는 CUDA(Compute Unified Device Architecture)라는 병렬 컴퓨팅 플랫폼을 만들어 GPU 하드웨어를 범용 컴퓨팅에 활용할 수 있게 만들었습니다. GPU 프로그래밍을 민주화했다고 할 수 있습니다.
엔비디아의 주요 AI 인프라 및 산업용 GPU는 다음과 같습니다:
▶ V100(볼타, Volta): Deep Learning Acceleration을 위해 특별히 설계되었습니다. AI 학습을 위한 행렬 연산을 가속화하는 특수 하드웨어 유닛인 텐서 코어(Tensor Core)를 도입
더 많은 텐서 코어, 더 높은 메모리 대역폭, 그리고 다중 인스턴스 GPU(MIG, Multi-Instance GPU)를 지원합니다. 하나의 물리적 GPU를 여러 논리적 GPU로 나누어 효율성을 높임.
AI의 산업 표준. H 시리즈는 트랜스포머 엔진(Transformer Engine) 지원, 대규모 메모리 대역폭, 그리고 학습 및 추론을 위한 고속 성능을 제공.
수조 개의 파라미터를 가진 차세대 AI 모델을 위해 설계된 하드웨어. 호퍼(Hopper)의 후속으로, FP4 정밀도(FP4 Precision)를 도입하여 특히 대규모 트랜스포머(Transformer) 작업에서 추론 처리량을 크게 향상시킴. |
GPU에 이어, 여러 산업에서 AI에 특화된 더 많은 프로세서를 필요로 하게 되면서 다음 핵심 하드웨어 유형인 TPU가 등장했습니다. TPU(텐서처리장치; Tensor Processing Unit)는 구글이 신경망 연산, 특히 행렬 곱셈과 머신러닝 워크플로우를 가속화하기 위해 특별히 설계한 맞춤형 칩입니다. TPU는 2016년 구글 I/O에서 처음 공개되었고, 그 특성상 ASIC(주문형집적회로; Application-Specific Integrated Circuit, 특정 용도를 위해 맞춤 제작된 칩)의 한 종류라고 할 수 있습니다.

TPU의 기본 구조는 다음과 같습니다. 핵심 구성 요소는 매트릭스 곱셈 유닛(Matrix Multiply Unit)입니다. 256×256 배열의 곱셈-누산 셀(MAC, Multiply-Accumulate Cell)이 'Systolic Array'로 배치되어 데이터가 그리드를 통해 마치 '물결처럼' 흐릅니다.
또한 TPU는 대용량 온칩 메모리를 갖추고 있습니다: 중간 활성화 데이터를 저장하는 통합 버퍼(Unified Buffer, 24MB), 신경망 가중치를 위한 가중치 메모리/FIFO(Weight Memory/FIFO), 합계를 수집하는 누산기(Accumulators, 4MB)입니다.
제어 로직, PCIe 인터페이스, 그리고 ReLU나 시그모이드(Sigmoid) 같은 활성화 함수를 위한 활성화 유닛(Activation Unit)은 매트릭스 엔진을 지원하지만, 칩의 대부분은 원시 계산과 빠른 데이터 이동에 사용됩니다.
TPU의 중요한 특징은 바로 보조 프로세서(Coprocessor)로 작동한다는 점입니다. 호스트 CPU는 PCIe를 통해 TPU에 명령어를 보내고, TPU는 이를 직접 실행합니다. TPU의 명령어 세트는 약 12개 정도로 작고, 하드웨어는 모든 것을 파이프라인으로 처리하여 매트릭스 유닛이 항상 바쁘게 작동합니다. 텐서플로우(TensorFlow) 같은 프레임워크는 모델을 이런 로우레벨 명령어로 컴파일합니다.
256개의 작은 온칩 메모리(분산 누산기 RAM, Distributed Accumulator RAM)는 부분 합을 수집하고, Systolic Array가 곱셈-누산(MAC) 연산을 수행합니다. 가중치와 데이터를 Systolic Array로 스트리밍하고 온칩 버퍼에서 로컬로 재사용하여, TPU는 오프칩 메모리 접근을 최소화합니다. 결과적으로 레이어 단위의 대부분 계산이 칩에서 직접 실행됩니다.
간단히 요약하면 이렇습니다: TPU의 각 유닛은 작은 계산을 수행하고 부분적인 결과를 전달하면서 전력을 절약하고, AI 모델의 수학적 연산을 놀라울 정도로 빠르게 처리합니다. 이 덕분에 TPU는 CPU나 GPU에 비해 동일한 작업에서 훨씬 적은 전력을 사용하면서도 처리량은 훨씬 높습니다. 구글의 2017년 분석에 따르면, TPU는 당시의 CPU와 GPU(K80급 GPU와 비교한 추론 작업 기준)에 비해 와트당 약 30~80배 더 높은 성능을 보이기도 했습니다.
현재 GPU 기반 AI 칩 시장에서 엔비디아의 점유율은 약 90%에 달하는 것으로 평가됩니다. 이러한 시장 구도 속에서, 지난해 11월 구글이 차세대 대규모 언어 모델인 ‘제미나이 3(Gemini 3)’를 공개하며 TPU가 다시 주목을 받았습니다. 구글은 해당 모델의 학습 과정에 자사 TPU(Tensor Processing Unit)를 활용했다고 밝혔습니다.
TPU는 GPU 대비 비용 측면에서 약 70~80% 낮은 수준이며, 전력 효율 측면에서는 최대 4배에 달하는 성능을 보이는 것으로 알려져 있습니다. 이는 대규모 AI 학습과 추론 환경에서 총소유비용(TCO)을 크게 낮출 수 있는 잠재력을 의미합니다. 다만 TPU는 특정 AI 연산에 최적화된 특수목적집적회로(ASIC)로 설계되어, 범용 연산 처리 능력과 워크로드 유연성 측면에서는 GPU에 비해 한계가 존재합니다.
그럼에도 불구하고, TPU가 엔비디아 GPU의 현실적인 대안이자 비용 효율적인 선택지로 부상하고 있는 것은 분명한 흐름입니다. 특히 제미나이 3를 통해 기대 이상의 성능이 확인되면서, 일부에서는 TPU가 엔비디아 중심의 AI 반도체 시장 구조에 균열을 가져올 수 있는 출발점이 될 수 있다는 평가도 제기되고 있습니다.
이에 대해 엔비디아 역시 선제적으로 대응에 나서고 있습니다. 지난 1월 5일, 미국 라스베이거스에서 열린 CES 2026에서 젠슨 황 엔비디아 CEO는 차세대 인공지능(AI) 칩 플랫폼인 ‘베라 루빈(Vera Rubin NVL72)’의 실물을 공개했습니다. 베라 루빈은 엔비디아가 자체 설계한 중앙처리장치(CPU) ‘베라(Vera)’와 차세대 그래픽처리장치(GPU) ‘루빈(Rubin)’을 결합한 통합 AI 컴퓨팅 플랫폼으로, 2024년에 공개된 블랙웰(Blackwell) 아키텍처의 후속 세대에 해당합니다.
해당 시스템은 CPU ‘베라’ 36개와 GPU ‘루빈’ 72개로 구성되어 있으며, 블랙웰 울트라 대비 AI 추론 성능은 약 5배, 학습 성능은 약 3.5배 향상된 수치를 기록한 것으로 소개되었습니다. 젠슨 황 CEO는 발표를 통해 루빈 플랫폼이 기존 블랙웰을 잇는 차세대 AI 컴퓨팅 표준이 될 것이라며, 이미 본격적인 양산 단계에 돌입했다고 강조했습니다.
각 AI 하드웨어 유형을 전체적으로 정리하면 다음과 같습니다:
▶ CPU(Central Processing Unit): 범용 작업을 위한 프로세서
▶ GPU(Graphics Processing Unit): 병렬 그래픽 및 수학 작업에 특화
▶ TPU(Tensor Processing Unit): 구글의 AI 가속기
AI가 발전하는 만큼, 이를 떠받치는 하드웨어 역시 빠르게 진화하고 있습니다. 그리고 이 익숙한 세 가지 요소 외에 한층 높은 효율성과 독창적인 접근법을 찾으려는 노력도 이어지고 있습니다. Cerebras의 WSE나 AWS 하드웨어 같은 맞춤형 ASIC(주문형 집적회로), 그리고 APU, NPU, IPU, RPU, FPGA 같은 것들입니다. 이 접근들에 대해서도 추후 자세히 다뤄보도록 하겠습니다.
Writer: Turing Post - Ksenia Se, Ben Eum
Edit: Metanet