AI/LLM

DeepSeek R1

Tech리 2025. 2. 12. 19:34

안녕하세요! 며칠 전부터 세상이 DeepSeek 때문에 떠들썩한 것 같습니다. DeepSeek에서 출시한 모델들이 오픈소스로 모든 것이 공개되어 있습니다. 특히 DeepSeek R1이 매우 뛰어난 성능을 보이고, 최근 미국이 중국에 대한 반도체 규제를 강화하는 가운데 나온 모델들이라 더욱 이슈가 되는 것 같습니다. 

 

DeepSeek 홈페이지

DeepSeek R1이 이렇게 주목 받는 이유는 가령 성능 뿐만이 아닙니다. 흔히 instruct라는 명칭이 붙는 모델들은 지도 미세 조정 (SFT, Supervised Fine-Tuning)을 통해 베이스 모델의 성능을 개선 시킵니다. 그러나 R1의 경우, 강화학습을 통한 Post-Training을 하여 엄청난 비용 절감을 이루어 내어, 과연 엔비디아의 초고가의 고성능 칩들이 필요한가에 대한 의구심을 만들어 냈기 때문입니다. (이에 대해선 이견이 많습니다.) 

 

그렇다면 DeepSeek R1은 어떤 방식을 통해 모델을 학습하였길래 이런 파급력을 가지게 되었을까요??

 DeepSeek R1 및 DeepSeek-R1-Zero은 기본적으로 이전에 DeepSeek에서 발표한 Claude 3.5 Sonnet 및 Gemini 1.5 Pro이 유사하다고 알려진 DeepSeek-V3 모델을 기반으로 6,710 억 파라미터의 MoE(Mixture of Exports) 방식으로 구성되어 있습니다. 한 개의 토큰이 들어갈 때  370억 개의 파라미터가 활성화된다고 합니다. (MoE는 GPT 등에 일찍이 적용되어 온 만큼 특이한 기술은 아닙니다. 이에 대해선 다음에 더 다루어 보도록 하겠습니다.) 

 

1) 강화학습을 통한 Post-Training

V3를 기반으로 R1을 학습시킬 때 가장 중요하게 사용된 기술이라고 하는데요. 계산 자원을 효율적으로 사용하면서 모델의 정확성을 높였다고 합니다. 이 때, 주로 강화학습에 많이 사용되는 critic model 이 아니라 강화학습의 비용 절감을 위해 GPRO(Group Relative Policy Optimization)이라는 강화학습 기법을 도입하였는데요 이는 그룹 점수를 통해 기준선을 추정하는 기법입니다. 이외에도 모델이 생성한 응답에 대해 정확성, 형식 일관성, 논리적 타당성을 기준으로 점수를 부여하는 보상 함수를 설계하여 사용했습니다. 특히, DeepSeek-R1-Zero은 SFT를 따로 하지 않고 RL 만을 통해 학습이 되었습니다. 

 

2) SFT 추가 적용

그러나 이 경우, 출력의 가독성이 떨어지고, 언어 혼용 문제가 발생하는 등의 한계가 있어서 SFT를 추가 적용하여 R1을 학습시켯습니다. 이 과정에서 Rejection Sampling 기법을 사용하여 고품질 데이터를 선별하고, 이를 통해 모델의 응답 형식과 가독성을 개선하는데 중점을 두고 진행하였습니다. 긴 Chain-of-Thought(CoT) 예제나 사람이 정제한 데이터를 사용하여 초기 모델 안정화하기 위한 Cold start 데이터를 활용하여 초기 SFT 를 진행하고 RL 만을 진행한 모델에서 생성된 고품질 데이터를 선별하여 SFT에 재활용하는 등 RL과 SFT를 반복적으로 진행하여 적은 양의 데이터로 높은 성능을 달성하고 강화학습만을 진행했을 때 발생하는 문제인 가독성을 개선했습니다. 

 

3) 성능 

DeepSeek R1은 MATH 벤치마크에서 91.6%, AIME 2024에서 89.7%라는 높은 성능을 기록하며, 수학적 추론 및 코딩 작업에서 OpenAI의 독점 모델과 동등하거나 더 뛰어난 성능을 보였습니다. 특히 논리적 문제 해결에서 Chain-of-Thought(CoT) 방식을 활용하여 복잡한 문제를 단계적으로 해결하는 능력을 보여줍니다

DeepSeek R1 성능 비교

 

DeepSeek R1은 강화학습 기반의 효율적인 학습 방식과 Mixture-of-Experts 아키텍처를 통해 뛰어난 성능을 발휘하며, AI 기술의 새로운 가능성을 열어가고 있습니다. 특히, 오픈소스 접근성과 비용 효율성은 AI 기술 개발의 진입 장벽을 낮추고, 더 많은 연구자와 기업이 혁신적인 AI 솔루션을 개발할 수 있도록 돕고 있습니다. 이러한 특징들은 단순히 기술적 우위를 넘어 AI 생태계 전반에 걸쳐 긍정적인 변화를 가져올 잠재력을 가지고 있습니다. 앞으로 DeepSeek R1이 다양한 산업 분야와 연구 커뮤니티에서 어떤 방식으로 활용될지 주목할 만합니다.

 

 

 

'AI > LLM' 카테고리의 다른 글

Titans: Learning to Memorize at Test Time  (0) 2025.02.12