Metanet Company
- Consulting & Managed
  메타넷글로벌 에이티앤에스그룹
- Application Modernization
  메타넷디지털
- Infra Modernization
  메타넷엑스 락플레이스 에미넷
- Solution & Service
  메타넷사스 메타넷디엘 메타넷핀테크 블루칩씨앤에스
- AI
  스켈터랩스
- Learning Platform
  IGM 세계경영연구원 엘릭스
Service
- Envision
  Assess & Design
- Transform
  Application & Modernization Migration & Transform Source & Configure Cloud Platforms
- Evolve
  Manage & Optimize Cloud Brokerage Platform
Product & Platform
Blog
Careers
About us

검색창 열기

검색창 닫기

KR EN

Metanet Company
- Consulting & Managed
  메타넷글로벌 에이티앤에스그룹
- Application Modernization
  메타넷디지털
- Infra Modernization
  메타넷엑스 락플레이스 에미넷
- Solution & Service
  메타넷사스 메타넷디엘 메타넷핀테크 블루칩씨앤에스
- AI
  스켈터랩스
- Learning Platform
  IGM 세계경영연구원 엘릭스
Service
- Envision
  Assess & Design
- Transform
  Application & Modernization Migration & Transform Source & Configure Cloud Platforms
- Evolve
  Manage & Optimize Cloud Brokerage Platform
Product & Platform
Blog
Careers
About us

Blog

Detail Page | Tech 메인메뉴

Detail Page | Tech

[Metanet X Turing Post] GRPO, LLM을 실용적으로 업그레이드 하는 비밀 레시피

2025.10.20

혁신이 꼭 '無'에서 시작해야 하는 건 아니죠. 오히려 원래 알고 있던 기본적인 원래를 다시 생각하는 것이 혁신의 시작이 될 때가 많습니다.

2025년 가장 주목받는 AI 기술 중 하나로 떠오른 GRPO(Group Relative Policy Optimization)가 훌륭한 사례입니다.

이 기술은 등장과 함께 전 세계를 뒤흔들었던 DeepSeek의 핵심적인 구동 방식으로, 거대 언어모델(LLM)을 대상으로 강화학습을 최적화 할 수 있게 해주는 기술입니다. 이미 AI 업계에서 널리 쓰이고 있던 전통적인 강화학습 기법인 PPO(Proximal Policy Optimization)의 대안으로서 개발됐습니다.

PPO는 가치 함수(Critic 모델)가 따로 필요해서, 메모리와 연산량이 2배 가까이 듭니다. 반면에, GRPO는 Critic 모델을 아예 없애고 모델이 스스로 만든 출력을 기반으로 학습을 하게끔 했습니다. 덕분에 더 빠르고 효율적으로 학습할 수 있고, 특히 수학, 코딩처럼 복잡한 추론이 필요한 작업에서 뛰어난 성능을 보여줍니다.

DeepSeek-R1이 등장한 이후 GRPO를 구현한 연구들이 쏟아졌고, 특히 최근엔 거기서 한층 더 진화한 Flow-GRPO도 등장했습니다. ‘이미지 기반의 Flow 모델’에도 GRPO 기법을 적용할 수 있게 한 것인데요, 다시 말해 텍스트뿐 아니라 비전의 영역까지 GRPO가 확장되고 있다는 뜻이죠.

이 글에서는 GRPO가 어떤 것이고 왜 특별한지, 어떻게 작동하는지 함께 알아보겠습니다.

GRPO가 필요했던 이유 - PPO의 한계

2017년, 오픈AI가 PPO라는 강화학습 알고리즘을 공개했습니다. 이 알고리즘은 에이전트가 환경과 상호작용을 하면서 어떻게 ‘좋은 선택’을 할 수 있을지를 학습하도록 만드는 방식으로, 아주 간단한 목적을 가지고 있습니다. 우리가 원하는 행동과 모델의 출력이 점점 더 일치하도록 '정렬(Alignment)' 시키는 겁니다.

PPO는 출시 직후부터 로보틱스, 자율주행 시스템, 게임 플레이 에이전트 훈련 등 여러 분야에서 기본이 되는 강화학습 방식으로 자리잡았습니다. 그 인기의 비결은 바로 '안정성' 입니다. PPO는 에이전트의 행동 방식(Policy)을 개선하되, 한 번에 큰 변화를 주지 않고 조심스럽게 업데이트를 반복하여 안정적으로 성능을 높여갑니다.

PPO의 작동 방식

1) 데이터 수집 (Data Collection)

에이전트가 환경 내에서 상호작용을 하면서 데이터를 수집합니다. 어떤 행동을 했고, 어떤 상태에 있는지, 어떤 보상을 받았는지를 저장해 둡니다.

2) 이득 계산 (Advantage Calculation)
PPO는 각각의 행동이 얼마나 ‘좋은 선택’이었는지 평가합니다. 이를 위해 가치 함수(Value Function)를 사용해 '예상했던 보상'과 '실제로 받은 보상'의 차이를 계산하며, 이 값을 이득(Advantage)라고 정의합니다. 이 값이 양수이면 예상보다 좋은 행동이었음을, 음수이면 예상보다 나쁜 행동이었음을 나타냅니다.

하지만 단순한 이득 계산만으로는 AI가 단기적인 보상에만 집착하는 '근시안적'인 판단에 빠질 위험이 있습니다. PPO는 이러한 한계를 극복하기 위해 GAE(Generalized Advantage Estimation)라는 한층 더 정교한 기법을 사용합니다. GAE의 핵심은 단기적 보상과 장기적 결과를 균형 있게 고려하는 데 있습니다.

예를 들어, 특정 행동이 당장은 +10점의 보상을 가져오더라도, 그로 인해 미래에 -100점의 손실을 유발할 수 있다면 GAE는 이 행동의 최종 가치를 부정적으로 평가합니다. 반대로, 당장의 보상은 없더라도 장기적으로 더 큰 보상으로 이어지는 길을 선택하도록 유도합니다.

이처럼 GAE는 시간의 흐름에 따른 보상의 인과관계를 종합적으로 분석하여 행동의 '진짜' 가치를 추정합니다. 이를 통해 AI는 눈앞의 이익에만 매몰되지 않고, 더 전략적이고 현명한 의사결정을 내릴 수 있으며, 이는 결국 전체 학습 과정의 안정성과 성능을 크게 향상시키는 결과로 이어집니다.

3) 클리핑(Clipping)된 목적함수로 정책 업데이트
이득(Advantage)을 성공적으로 계산했다면, 이제 AI는 이득이 높았던 행동을 더 적극적으로 하도록 자신의 행동 전략, 즉 정책(Policy)을 업데이트해야 합니다. 하지만 AI가 너무 급진적으로 변화하는 것은 위험하기 때문에, PPO는 독창적인 안전장치를 사용합니다.

먼저 PPO는 새로운 정책이 이전 정책보다 얼마나 더 나은지를 확률 비율(Probability Ratio)로 비교합니다. 이 비율이 너무 크거나 작으면, AI가 한 번의 학습으로 너무 성급하게 전략을 바꾸려 한다는 신호입니다. 그래서 PPO는 확률 비율을 0.8~1.2 사이로 클리핑(Clipping)합니다. 즉 상한선과 하한선을 강제로 설정하는 것이죠. 바뀐 정도가 너무 크면 무시하거나 보상을 제한하고, 변화가 성능에 부정적 영향을 줄 수 있으면 페널티를 적용합니다. 이 클리핑이 바로 PPO의 핵심 아이디어라고 할 수 있습니다. 변화의 폭을 의도적으로 제한해, 한번의 잘못된 업데이트로 전체 학습이 망가지는 치명적 실패를 방지하여 안정성을 강화합니다.

더불어, PPO는 KL Divergence(쿨백-라이블러 발산) 측정이라는 추가적인 안전장치를 이용합니다. 클리핑이 개별 행동의 변화 폭을 제한한다면, KL Divergence는 정책의 종합적인 특성 변화를 감시합니다. 이 값이 특정 임계치를 넘어서면 정책의 스타일이 너무 급격하게 변화했다고 판단, 학습에 패널티를 부여하여 업데이트 속도를 늦춥니다.

4) 세 가지 목표(Objective)을 동시에 최적화

PPO는 AI의 강화를 위해 세 가지 목표를 동시에 최적화합니다.

▶ 정책의 개선: (3) 에서 설명한 것 처럼, 클리핑된 목적함수를 통해 정책을 안정적으로 개선합니다.
▶ 예측 정확도 향상: 가치 함수를 통해 앞으로 받을 보상을 더 정확하게 예측할 수 있도록 합니다. 이 예측이 정확해질 수록 '이득' 계산의 신뢰도가 높아지고, 결과적으로 정책 개선이 올바른 방향으로 이뤄질 수 있습니다.
▶ 탐색 행동의 유지: 학습이 거듭되면 AI는 점점 익숙한 행동만 반복하려는 경향이 생깁니다. 특정 전략에만 매몰되어 더 좋은 해법을 찾을 기회를 놓치는 것을 방지하기 위해, PPO는 일부러 엔트로피가 높은 상태, 즉 다양한 행동을 시도하는 상태에 보너스 행동을 줍니다. 이를 통해 AI가 창의적인 탐색 행동을 계속하게 만듭니다.

5) 여러 에포크(Epoch)에 걸쳐서 학습
PPO는 수집한 경험 데이터를 한 번만 사용하지 않고, 여러 번 재사용(Epoch)합니다. 방대한 양의 데이터를 한 번에 학습시키는 것은 비효율적이고 컴퓨팅 자원에도 부담이 되기 때문에, 미니 배치(Mini-batch)라는 작은 묶음으로 나눠서 진행합니다. 동시에 수많은 시도를 진행하면서 보상이 더 커지는 방향으로 매개 변수 값을 조금씩 조정합니다. 이를 경사 상승(Gradient Ascent) 방식이라고 합니다. 이같은 과정을 통해, 정책과 가치 함수 네트워크(Value Network)를 점진적으로 업데이트 합니다.

6) 이 과정을 반복
위의 과정을 계속 반복하면서 에이전트가 점점 스마트해지고, 더 효과적으로 목표를 달성할 수 있게 됩니다.

이 PPO의 워크플로우는 여전히 잘 작동하고, 수많은 시스템의 백본(Backbone) 역할을 하고 있습니다.하지만 훈련 단계에서 메모리가 비효율적으로 사용된다거나 연산 비용이 많이 증가한다는 치명적인 약점을 동시에 안고 있습니다.

PPO는 행동하는 주체(Actor)와 행동을 평가하는 주체(Critic)가 서로 협력하며 강화학습을 진행하는 액터-크리틱 구조입니다. 때문에 Actor 역할을 하는 정책 네트워크와 별개로 Critic 역할을 하는 가치 함수 네트워크를 따로 학습시켜야 합니다. Actor는 행동을 더 잘하게 만드는 방법으로 학습되고, Critic은 보상을 더 정확히 예측하는 방향으로 학습되어야 하죠. 그런데 이 Critic 모델이 보통 Policy 모델과 크기가 비슷합니다. 사실상 똑같은 규모의 모델을 두 개 동시에 돌리는 셈이고, 한번의 학습에도 두 개의 모델을 따로 돌려야 하니 연산량과 메모리 사용이 두 배로 늘어납니다.

게다가 Critic의 학습 속도는 느리고, 일반화(Generalization) 성능도 떨어질 수 있습니다. (*일반화란, AI가 학습한 내용을 새로운 상황에서도 잘 적용할 수 있는 능력을 말합니다.) 특히 수학 문제 풀이처럼 긴 텍스트 과제를 다룰 때는 토큰 단위의 업데이트나 Value 추정이 제대로 작동하지 않을 수도 있습니다.

이런 여러 요소들이 맞물리면, PPO는 학습 과정에서 심각한 병목(Bottleneck)으로 작용하게 됩니다. 특히 지금 GPU의 메모리 효율이 그 어느 때보다 중요한 시대라는 점, 그리고 추론 단계에서의 연산량이 계속 증가하는 상황이라는 점을 고려하면, 훈련 단계에서 최대한 비용을 줄이는 게 전체 효율을 유지하기 위해서 아주 중요합니다.

GRPO는 어떻게 작동하는가?

그렇다면, 이 Critic 네트워크를 아예 없애고 더 효과적인 방식으로 대체할 수 있다면 어떨까요? 이런 발상에서 출발해서, DeepSeek가 기존의 PPO를 대체할 새로운 강화학습 알고리즘, GRPO를 개발했습니다. 이 방식은 Critic 네트워크 자체를 완전히 제거합니다.

GRPO는 2024년 4월 공개된 DeepSeekMath 논문에서 처음 소개되었습니다. 핵심 아이디어는, Critic을 통해 절대적인 가치 평가를 진행하는 것이 아니라, 같은 상황에서 나온 여러 출력 값을 서로 비교해서 가장 좋은 것을 고르는 상대 평가를 하겠다는 겁니다. 간단하지만 강력한 이 발상 덕분에 복잡한 추론 문제에 대해서 더 강한 학습 신호(Strong Learning Signal)를 만들 수 있게 됩니다. GRPO는 한 번에 여러 답을 비교하므로 각 답변 간의 차이를 더 뚜렷하게 인식할 수 있습니다. 정답이 하나인데 비슷하게 틀린 답이 여러 개 있다면, PPO는 모두 비슷한 점수로 보지만 GRPO는 '이건 맞고, 저건 틀리다'를 구분해 학습 방향을 명확히 할 수 있는 것이죠. 또한 별도의 Critic 네트워크를 훈련할 필요도 없고, 전체 메모리 사용량도 크게 줄일 수 있게 됐습니다.

그럼 이제 왜 GRPO의 이런 설계가 PPO보다 더 효과적이고 실용적인 해법인지 살펴보겠습니다. GRPO가 실제로 어떻게 작동하는지 단계별로 살펴보면 다음과 같습니다:

1) 기존의 정책 모델이 여러 개의 답안을 생성
먼저 기존(구 버전) 정책 모델이 하나의 질문에 대해서 여러 개의 답안을 만들어 냅니다. 이 과정은 데이터를 풍부하게 만들기 위한 다중 샘플링 단계입니다.

2) 보상 모델이 각각의 답안에 점수를 부여
각각의 답안에 대해서 보상 모델 (Reward Model)이 점수를 매깁니다. 그런 다음, 이 점수들을 해당 그룹의 평균을 빼고, 표준편차로 나눠서 정규 분포 형태로 변환합니다. 이렇게, 한 개의 답안이 그룹 안의 다른 답안들과 비교해서 얼마나 더 나은지 (혹은 나쁜지)를 상대적으로 판단할 수 있습니다. 즉, 이건 절대적인 보상이 아니라 상대적 보상 (Relative Reward) 인 셈입니다.

3) Value Function 없이 Advantage 계산
PPO에서는 보통 가치 함수를 써서 이득을 계산한다고 설명드렸는데, GRPO에서는 위 2단계에서 정규화한 보상값이 곧 각 답안의 이득 역할을 합니다. 이렇게 Critic 네트워크가 없이도 효과적인 학습 신호를 얻도록 한 것이죠.

4) KL 페널티를 통해서 정책 드리프트 방지
GRPO는 PPO의 핵심 아이디어인 클리핑(Clipping) 개념을 일부 이어받습니다. 단, GRPO에서는 KL Divergence를 보상에 적용하지 않고 손실 함수(Loss)에 직접 더해서, 새로운 정책이 원래의 정책에서 너무 멀어지는 현상을 방지합니다.

쉽게 설명하자면 다음과 같습니다. PPO에서는 KL 값을 '보상'에 섞어 넣었습니다. AI가 너무 급격히 변화하면 보상에서 감점을 하는 방식입니다. 하지만 이런 구조에서, AI는 실제 보상에 문제가 있었는지 혹은 정책에 문제가 있었는지 원인을 구분하기 쉽지 않습니다. 반면 GRPO는 KL을 보상과 분리된 항목으로 처리합니다. 보상은 오직 행동의 결과로만 계산하고, 대신 학습할 때 사용하는 계산식(손실 함수)에 KL을 반영합니다. 새 정책이 이전 정책과 너무 달라질 경우 학습 과정에서 페널티를 부여하는 것이지요. 이를 통해 모델이 지나치게 새로운 방향으로 업데이트되는 것을 제어할 수 있습니다.

요약하자면, GRPO는 Critic을 제거한 대신, 그룹 안의 상대적 평가와 간단한 KL 제약 조건만으로 모델의 학습을 유도하는 방식으로, PPO보다 훨씬 가벼우면서도 특히 복잡한 추론 작업에 더 유리한 구조를 제공해 줍니다.

덧붙여서, GRPO는 단순하게 Critic을 제거한 것에서 그치지 않고, 효과적인 학습을 위해서 몇 가지 중요한 트릭들을 더 활용합니다

▶ 출력 전체가 끝나고 나서만 점수를 부여
기본적으로, GRPO는 출력 전체가 끝나고 나야만 하나의 점수를 부여합니다. 이 방식으로 전체적인 결과의 품질을 평가합니다.

▶ 추론 과정의 각 단계별로 점수를 부여
GRPO는 여기서 한 단계 더 나아가서, 출력 안의 각 추론 단계마다 점수를 부여해서, 중간 단계 추론이 얼마나 좋은 경로였는지도 판단할 수 있습니다.

▶ 각각의 토큰에 대한 Advantage 계산 방식
각각의 토큰에 대한 Advantage는 해당 토큰 이후에 나오는 미래 단계들의 점수를 모두 더한 값으로 계산해서, 모델이 좋은 추론 경로를 따라가도록 유도하는 효과를 봅니다.

▶ Iterative GRPO - 보상 모델도 함께 발전
훈련이 계속되면 LLM 자체가 더 똑똑해지기 때문에, 기존의 보상(Reward) 모델이 뒤쳐질 수 있는데, 이를 막기 위해서 보상 모델도 최신 LLM의 출력으로 재훈련합니다. 학습의 안정성을 위해서 과거 데이터의 10%는 재사용하고, KL 페널티 계산에 사용하는 레퍼런스 모델도 Policy와 함께 업데이트합니다.

결국, GRPO와 PPO의 차이는 ‘설계 철학의 차이’에 가깝습니다. PPO는 Critic을 따로 학습해서 베이스라인을 예측하고, GRPO는 현재의 Policy로 만들어진 여러 샘플들 간의 상대적인 비교로 베이스라인을 추정하는 거죠. 두 가지 기법 모두 Policy를 정렬하고 향상시키겠다는 목표는 같지만, GRPO는 불필요한 네트워크를 제거하고, 추론 중심의 작업에 더 잘 맞는 방식으로 진화한 버전이라고 보면 어떨까 합니다.

왜 GRPO가 좋은가?

GRPO가 처음으로 적용된 사례는, CoT(Chain-of-Thought) 방식의 수학 문제에 특화된 DeepSeekMath-Instruct 7B 모델의 파인튜닝 작업이었습니다. 이 때 GRPO를 활용해서 학습시킨 모델이 GSM8K 벤치마크에서 88.2%의 정확도, MATH 데이터넷에서는 51.7%의 정확도를 기록하는 등 아주 놀라운 성과를 보여줬습니다.

*GSM8K 벤치마크: OpenAI와 구글이 만든 초등~중등 수준의 수학문제 8,500개로 구성된 데이터셋입니다. AI의 기초 논리력, 계산력, 사고 체계의 일관성을 평가하는 벤치마크입니다.
*MATH 벤치마크: UC버클리 연구진이 도입한 벤치마크로, 미국 고등학생 수준의 수학 경시 문제 12,500개로 구성되어 있습니다. 매우 광범위하고 깊이있는 수학적 지식을 요구합니다.

이렇게 훈련한 DeepSeekMath-RL 7B는 더 큰 사이즈의 오픈소스 모델들 뿐 아니라, 상당수의 폐쇄형 모델들의 성능도 뛰어넘는 결과를 보여주면서, GRPO 기법의 뛰어난 성능을 증명했습니다. 결론적으로, GRPO는 기존의 PPO보다 훨씬 더 효율적인 강화학습 방식으로 자리를 잡아가고 있습니다.

GRPO의 중요한 장점들은 아래와 같습니다:

▶ 가치 함수(Value Function)가 필요없음
별도의 Critic 네트워크 없이도 학습이 가능해서, 구조가 단순하고 메모리 사용량도 줄어듭니다.

▶ 그룹 기반의 보상으로 계산이 훨씬 단순함
출력값들 간의 상대적인 비교만으로 보상을 산출하기 때문에, 보상 함수의 설계와 계산이 PPO보다 훨씬 직관적이고 효율적입니다.

▶ KL 페널티를 Reward가 아니라 Loss에 직접 적용
PPO는 KL 페널티를 보상 신호에 넣지만, GRPO는 손실 함수에 바로 반영합니다. 그래서, Advantage 계산이 더 간단 명료하고, 오류 가능성도 줄어듭니다.

▶ 메모리 절약 + 빠른 학습 = 비용 절감
복잡한 Critic 네트워크가 없고 계산량이 감소하니, 전체적으로 더 빠르고 저렴하게 훈련할 수 있는 구조입니다.

▶ LLM에 최적화된 설계
GRPO는 처음부터 거대 언어모델 (LLM)을 염두에 두고 설계되어, 실제 LLM 학습에서 실용성 및 확장성이 뛰어납니다.

이런 장점들 때문에 DeepSeek에서도 계속해서 GRPO 알고리즘을 채택해서 사용했고, 그 결과로 등장한 DeepSeek-R1은 지금까지 등장한 수많은 LLM 중에서도 가장 뛰어난 추론 성능을 보여주는 모델 중 하나로 평가받고 있습니다.

구현 사례: DeepSeek-R1과 DeepSeek-R1-Zero

DeepSeek-R1의 성공은 GRPO를 단숨에 뜨거운 화제의 중심에 올려 놓았습니다. 이 알고리즘이, 강화학습 전략을 잘 설계하면 모델로부터 고차원의 추론 능력을 이끌어낼 수 있다는 걸 명확히 입증했으니까요.

특히 DeepSeek-R1-Zero는 인간이 만든 '모범 답안지'를 보고 배우는 지도 미세조정(SFT, Supervised Fine-Tuning) 과정 없이, 오직 강화학습(RL) 만으로 훈련시킨 모델이었습니다. 그럼에도 불구하고 이 모델은 스스로 자신의 답변을 돌아보고(자기반성, Self-Reflection), 답이 맞는지를 다시 검토하며(응답 재평가, Re-Evaluation), 단계별로 사고를 전개하는 연쇄적 사고(Chain-of-Thought) 방식을 자연스럽게 수행하는 등의 창발적 행동(Emergent Behavior)을 보여주었습니다.

재미있는 건, DeepSeek-R1-Zero에서 사용된 GRPO는 복잡한 인간의 피드백이나 별도의 보상 모델을 사용한 것이 아니라 규칙 기반의 보상(Rule-based Rewards)을 적용했다는 겁니다. 핵심 규칙들은 답변의 정답 여부를 평가하는 '정확도 보상', 정해진 응답 형식을 얼마나 잘 따랐는지 평가하는 '형식 보상'이었습니다.

물론, DeepSeek-R1-Zero에 몇 가지 한계도 있었습니다. 예를 들어서, 읽기 어려운 표현, 영어와 다른 언어가 섞인 혼란스러운 응답 같은 문제들인데요. 이 문제를 해결하기 위해서 DeepSeek은 더 정교한 학습 전략을 적용한 모델, 바로 전설적인 DeepSeek-R1을 공개했습니다. 이 모델은, SFT → GRPO → SFT → GRPO라는 4단계 학습 과정을 거쳐 완성됐습니다:

1단계: 콜드스타트 SFT
고품질의 긴 CoT 예제와 요약 데이터를 활용해서, 모델의 기본 추론 능력을 초기 세팅합니다.

2단계: GRPO 적용 – 추론 중심의 강화학습
여기서 정확도 보상 외에, 언어의 일관성 보상도 함께 적용해서 응답 내에서 서로 다른 언어가 혼용되는 문제를 방지합니다.

3단계: 리젝션 샘플링 기반 데이터 수집
모델이 생성한 다양한 응답 중에 우수한 것만 골라서 새로운 감독 학습 데이터셋으로 재구성합니다.

4단계: 최종 GRPO 라운드
이제 모델을 대상으로 추론 능력 뿐만 아니라 일반적인 상황에서도 정확도, 안정성, 유용성을 모두 만족하는 최종적인 강화학습을 수행합니다.

이런 학습 레시피를 통해서 탄생한 DeepSeek-R1은, 현재도 오픈소스 모델 중에서는 최상위권의 성능을 자랑하고, 심지어 폐쇄형 모델인 오픈AI의 o1-1217과도 맞붙을 수 있는 수준입니다.

하지만, GRPO는 이제 DeepSeek만의 전유물은 아니죠.
2025년 1월 DeepSeek-R1의 대성공 이후에, 다양한 연구팀들이 GRPO를 자사의 모델에 적극적으로 도입하기 시작했는데요, 그 결과 GRPO는 다양한 형태로 진화하고 있어요. 대표적인 확장 및 변형 사례들은 다음과 같습니다:

▶ Hybrid GRPO
PPO와 GRPO의 장점을 결합한 형태로, GRPO처럼 하나의 상태(State)에서 여러 행동을 샘플링해서 상대적인 품질을 평가하지만, PPO의 Value Function을 유지해서 안정적인 학습 신호도 함께 제공합니다. 목표는 PPO보다 편향은 적고, GRPO보다 분산은 낮은 균형 잡힌 접근을 하겠다는 겁니다.

▶ Multi-Objective GRPO
GRPO를 확장해서 모델이 여러 가지 목표에 동시에 맞춰 학습할 수 있도록 설계한 방식입니다. 예를 들자면, 안전성, 정중함, 유용성 등 다양한 측면을 각각 따로 점수화하는 멀티 보상 모델을 사용합니다.

▶ GRPO-LEAD
수학 문제에 특화된 GRPO의 확장 버전으로, ▲짧고 정확한 답변을 선호하는 길이 기반 보상 ▲명확한 오답 패널티 ▲문제 난이도에 따른 가중치 조정 등 더욱 엄격한 제약 조건이 적용됩니다.

▶ DanceGRPO
GRPO를 비주얼 생성 과제, 특히 영상 생성 등에 적용한 사례입니다.
이미지나 비디오 샘플들을 여러 개 생성하고, CLIP 같은 휴먼 피드백에 기반한 보상 모델로 점수를 매긴 후, GRPO 방식으로 상대적 Advantage를 계산해서 PPO처럼 클리핑된 방식으로 학습을 진행합니다. (이 방식은 이진 보상이나 희소한 보상 환경에서도 잘 작동합니다.)

▶ UnifiedReward-Think
멀티모달 추론 (Reasoning) 성능 향상을 목표로 만든 GRPO 기반의 프레임웍입니다.
GPT-4o에서 추출한 CoT 데이터를 활용한 콜드 스타트, 리젝션 샘플링으로 올바른 추론을 강화하고, 마지막으로 GRPO로 잘못된 추론을 교정하는 3단계 학습 구조를 따릅니다. (이때 GRPO는 검증 가능한 보상 신호를 활용해서 다양한 추론 경로를 탐색하게 합니다.)

Flow-GRPO는 무엇인가?

누가 뭐래도 최근 GRPO의 변형이나 확장 기법 중에서 가장 주목받는 건 바로 플로우 매칭(Flow-Matching) 기반 모델입니다.

플로우 매칭은 순수한 노이즈(Noise)에서 선명한 이미지를 만들어내는 경로를 효율적으로 학습하는 최신 기술로, 이미지 생성 모델의 성능을 한 단계 끌어올렸습니다.

하지만, 플로우 모델은 알고리즘의 특성 상 매번 같은 입력에 대해서는 항상 같은 결과가 나오는 결정론적(Deterministic) 특성을 가지고 있었습니다. 때문에 전통적인 강화학습(RL)과 잘 맞지 않는다는 한계가 있었습니다. 강화학습은 모델이 여러 행동을 시도해 보며 ‘무작위성(Randomness)’ 속에서 최적의 전략을 찾아가는 구조이기 때문입니다.

이런 문제를 해결하기 위해서 CUHK MMLab, Kuaishou Technology, 난징대학교 등의 공동 연구팀이 함께 마침내 플로우 모델에 온라인 강화학습을 접목시킨 새로운 방법, Flow-GRPO를 개발했습니다.

Flow-GRPO의 핵심 아이디어는 단순합니다: 모델이 이미지를 더 많이 생성할수록, 성능이 점점 더 좋아진다는 점에 착안한 겁니다.

기존의 플로우 모델은 강화학습에 필수적인 무작위성(Randomness) 이 없기 때문에, 그 자체로는 RL 적용이 아주 어렵습니다. 연구팀은 플로우 모델의 디노이징 과정을 ‘단계별 의사결정(Sequential Decision)’ 으로 재해석했습니다. 각 단계마다 “어떤 노이즈를 얼마나 제거할지”를 하나의 행동(Action) 으로 보고, 이를 강화학습으로 최적화한 것입니다. 다시 말해서, 강화학습 기법을 활용해서 더 또렷하고 정확한 이미지를 생성하는 방법을 모델이 스스로 배울 수 있게 만든 것이 Flow-GRPO의 핵심입니다.

Flow-GRPO는 두 가지 전략을 통해서 GRPO를 플로우 모델에 접목시킵니다:

1) ODE → SDE 변환: RL을 적용하기 위한 무작위성의 도입
일반적으로 플로우 모델은 ODE(Ordinary Differential Equation, 상미분방정식) 기반의 결정론적(Deterministic) 프로세스를 사용합니다. 즉, 이미지의 생성 경로가 고정되어 있어서 무작위성이 없고, 그 결과 확률 계산도 불가능합니다. 이건 GRPO를 적용하려면 꼭 필요한 확률 및 KL Divergence 계산이 불가능하다는 뜻이죠.

Flow-GRPO는 이 문제를 해결하기 위해서, ODE를 SDE(Stochastic Differential Equation, 확률미분방정식) 으로 변환합니다.

작동 방식은 다음과 같습니다:

- 각각의 생성 단계에 노이즈 항(Noise Term)을 추가합니다.
- 이 노이즈는 제어된 방식으로 삽입되어서, 결과적으로 이미지의 전체 분포(= 마진 분포, Marginal Distribution)는 그대로 유지되지만, 모델은 이제 탐색이 가능해지고, RL을 활용해서 점점 더 개선될 수 있습니다.

이 방식으로 GRPO에 필요한 확률 계산과 KL Divergence 계산이 가능해집니다. 플로우 모델에 강화학습을 ‘쓸 수 있게 된 것’ 자체가 큰 전환점이라 볼 수 있습니다.

2) 디노이징 축소(Denoising Reduction): 성능 저하 없이 학습 속도 개선
이미지를 생성하려면 수십 단계에 걸쳐서 디노이징 과정을 반복해야 하는데, 이건 계산 비용이 아주 큰 작업이죠. 그래서, Flow-GRPO는 학습 효율을 높이기 위한 특수한 트릭을 도입했습니다:

- 훈련 중에는 디노이징 단계를 줄입니다 (예: 40단계를 10단계로 축소)
- 테스트 및 추론(Inference) 시에는 전체 단계(40단계)를 모두 사용합니다.

Flow-GRPO는 텍스트-이미지 생성 과제 (Text-to-Image Tasks) 에서 성능을 검증받았습니다. GenEval 벤치마크 기준으로, 모델의 정확도가 63% → 95%로 대폭 상승하는 결과를 기록했습니다.

결론적으로, Flow-GRPO는, 결정론적 플로우 모델에 강화학습을 실질적으로 적용할 수 있는 첫 솔루션이자, 텍스트-이미지 생성의 품질과 효율을 모두 끌어올릴 수 있는 강력한 도구로 자리매김하고 있습니다.

▶Flow-GRPO는 이미지 내 텍스트 표현(Text Rendering)에서도 정확도 59% → 92% (KL Regularization 적용 시), 정확도 59% → 93% (KL 없이)의 성능 향상을 보여, 이미지 속 글자가 훨씬 더 선명하고 명확하게 생성되었습니다.

▶Flow-GRPO를 적용한 SD-3.5-M 모델은 일부 비주얼 벤치마크에서 심지어 GPT-4o보다 더 우수한 성능을 기록했습니다..

▶ 사용자 선호도 정렬 (Preference Alignment) 성능에 대해서도, KL을 적용했을 때 23.31점, KL을 적용하지 않았을 때 23.41점 (기존의 원본 모델은 21.7점)으로, GRPO을 적용하 후, 성능이 크게 향상된 것을 확인할 수 있습니다. KL Regularization이 출력의 다양성을 유지하기 위한 안전장치 역할을 하는 걸 알 수 있고, 따라서 성능 vs. 다양성 간의 균형을 어떻게 잡을 것인가가 중요한 설계 포인트입니다.

▶ 디노이징 축소 전략으로 훈련 시간은 기존 대비 무려 4배 빨라졌습니다.

▶ 또 하나 주목할 건, 모델이 점수를 ‘속이면서’ 품질과 다양성을 희생하는 보상 해킹 (Reward Hacking) 현상이 발생하지 않았다는 점으로, 이건 RL 기반 학습에서 아주 의미있는 성과입니다.

하지만 Flow-GRPO를 비디오 생성 영역으로 확장하려면 몇 가지 과제가 남아 있습니다.

- 영상용 보상 모델은 어떤 것이 효과적일까?
- 사실감(Realism), 부드러움(Smoothness) 등 다양한 목표를 어떻게 효율적으로 최적화할 수 있을까?
- 비디오 생성은 훨씬 더 많은 자원이 필요한데, 이를 어떻게 감당할까?

이런 질문들이 해결돼야 Flow-GRPO 기반의 비디오 생성이 본격화될 수 있을 텐데, 그게 바로 GRPO의 진화 방향이기도 합니다.

Flow-GRPO는 기본적으로 RL을 사용하지 않던 모델에도 GRPO를 성공적으로 적용, 확장할 수 있다는 걸 보여준 훌륭한 사례입니다. 특히 DeepSeek의 대표 모델인 R1의 성공 사례에서 보듯, GRPO는 효율적이면서도 잠재력이 큰 방식임을 입증했습니다.

GRPO의 한계

GRPO는 효율성과 성능 측면에서는 강력한 장점이 있는 방식이지만, 적용 대상과 맥락에 따라 명확한 한계와 주의점도 존재합니다.

▶ 샘플 비효율성(Sample Inefficiency)
GRPO는 그룹 기반 Advantage 계산법을 사용하기 때문에, 평균 이하의 보상을 받은 샘플들은 단지 기준선을 설정하는 데 쓰일 뿐, 실제로는 advantage가 거의 0 또는 음수로 처리됩니다. 그래서 이런 샘플들은 학습에 기여하는 Gradient 신호는 약하지만, 여전히 연산 자원은 소모하게 됩니다.

▶ 보상 모델에 대한 의존성
다른 RL 기반 파인튜닝 기법들과 마찬가지로, GRPO도 보상 함수 또는 보상 모델의 품질에 크게 의존합니다. 만약 보상 모델이 편향되어 있거나 결함이 있다면, GRPO는 그런 결함을 그대로 최적화하게 될 위험이 있습니다.

▶ GRPO 단독 사용의 한계 - DeepSeek-R1-Zero의 사례
DeepSeek-R1-Zero의 실험 결과는, GRPO를 단독으로만 사용할 경우 출력이 ‘사람 친화적’으로 유지되지 않을 수 있다는 점을 보여줍니다. 즉, 다른 학습 방식(SFT 등)과 적절히 혼합하는 것이 필요하다는 교훈을 주는 거죠.

▶ 실시간 환경에서는 비효율적일 수 있음
현실 세계의 환경이나 외부 시스템과 상호작용하는 RL 시나리오에서는 각 샘플의 결과가 고비용이거나 시간이 많이 소요될 수 있습니다. 이런 상황에서 GRPO처럼 한 번의 학습 스텝마다 다수의 샘플을 필요로 하는 방식은 실용성이 떨어질 수 있습니다.

GRPO를 둘러싼 연구자들간의 이견

앞서 살펴본 것과 같이, GRPO는 혁신적인 성과를 가져오면서 등장 직후 불과 몇 달 만에 추론(Reasoning) 파이프라인의 새로운 기본값으로 자리 잡았습니다.
딥시크(DeepSeek)를 비롯한 여러 오픈소스 연구 그룹들은 GRPO를 DPO나 PPO의 대체제로 도입해 모델의 추론 성능을 대폭 끌어올렸고, 그 결과는 인상적이었습니다. 파라미터가 약 70억 개 수준의 경량 모델들이, MATH나 AIME와 같은 논리·수학 중심 벤치마크에서 320억 개 규모의 대형 모델을 앞지르기 시작한 것입니다.

이러한 성공은 GRPO를 단순한 알고리즘이 아니라, ‘규모보다 전략으로 성능을 극대화하는’ 오픈소스 혁신의 상징으로 만들었습니다. 특히 Qwen, DeepSeek 등 중국계 연구 그룹에게 GRPO는 자원 효율성과 경쟁력 확보를 동시에 가능케 한 핵심 기술 자산이 되었습니다. 반면, 전통적인 프런티어 연구실(Frontier Labs) 입장에서는 자신들이 구축해 온 기술적 우위가 위협받는 신호로 받아들여졌습니다.

그 과정에서 연구자 간의 견해 차이도 생겼습니다. 일부 프런티어 랩 연구자들은 GRPO를 기술적으로 불완전한 접근으로 평가합니다. 실제로 초기 버전의 GRPO는 KL 정규화가 중요도 가중치(Importance Weighting)와 엇갈려 정책 목표(Policy Objective)가 일관되지 않을 위험이 있었고, UCLA의 Quanquan Gu 교수를 비롯한 일부 학자들은 이를 직접적으로 지적하며 "GRPO는기술적으로 틀렸다"는 비판을 내놓기도 했습니다.

이 논쟁은 어떻게 바라보느냐에 따라 다르게 해석될 수 있습니다. 좁은 의미에서 GRPO는 분명 구조적 한계를 갖고 있습니다. 이후 등장한 여러 GRPO 변형 기법들이 이러한 문제들을 해결하고자 한 것은 자연스러운 발전 과정일 것입니다. 반면, 넓은 의미의 GRPO는 오픈소스 생태계가 대규모 자원 없이도 모델의 추론 능력을 끌어올릴 수 있음을 보여준 하나의 방법론으로 평가받습니다.

‘GRPO는 결함이 있는 기술이고 뒤떨어진 기법이다’라고 말할 때, 어떤 관점에서 바라보는가가 중요하겠죠. 프런티어 랩의 비판이 전자의 관점에 가깝다면, 오픈소스 연구자들의 열광은 후자의 관점에서 비롯된 것이라 볼 수 있습니다.

그렇다면 프런티어 랩은 GRPO를 넘어 어떤 미래를 그리고 있을까요? 공개된 정보는 제한적이지만, 그들이 GRPO를 단순히 폐기하는 것이 아니라, 그 기반 위에서 훨씬 더 정교하고 강력한 기술을 구축하고 있을 가능성이 높습니다. 예상되는 연구 방향은 다음과 같습니다.

▶ KL 정규화 Policy Gradient 개선: 잘못된 가중치 적용 문제를 수정해, 안정적이면서 효율적인 정책 최적화를 구현
▶ 토큰 단위 강화학습(Token-level RL): Chain-of-Thought 전체가 아니라 각 토큰(단어 단위)의 결정 과정을 세밀하게 최적화
▶ 효율적 크레딧 할당(Credit Assignment): 결과에 결정적으로 기여한 행동에 더 높은 보상을 부여해 학습 효율 향상
▶ 불확실성과 세계 모델(World Model)의 통합: AI가 불확실한 상황을 스스로 인식하고, 현실적·상식적인 추론을 수행하도록 보상 구조에 통합

GRPO는, 비유하자면 ‘모델 내부에서 효율적인 학습 경로를 설계하는 영리한 알고리즘 마스터’와 같습니다. 다양한 GRPO의 확장 사례들 중에 특히 Flow-GRPO 사례는 인상적입니다. 강화학습이 본래 적용되지 않는 구조의 모델에도 GRPO를 성공적으로 확장할 수 있다는 가능성을 보여줬기 때문이죠. 개발자들이 이런 시도를 계속 이어간다면, GRPO는 훨씬 더 많은 분야로 확장될 수 있을 겁니다.

또 하나 주목할 점은, DeepSeek-R1 사례에서 확인된 것처럼 GRPO는 SFT(Supervised Fine-Tuning)와 결합했을 때 훨씬 더 강력한 효과를 발휘한다는 점입니다. 이건 GRPO를 단독으로만 쓰는 게 아니라, 전략적으로 혼합하여 사용하는 방식이 앞으로 DeepSeek-R1 같은 돌파구를 만들어낼 열쇠일 수 있다는 힌트를 줍니다.

GRPO는 지금 이 순간에도 진화하고 있는 알고리즘이고, 그 활용 가능성은 이제 막 개화하기 시작했을 뿐입니다.

Write: Turing Post - Ksenia Se & Ben Eum

Edit: Metanet