중국 AI 스타트업 딥시크(DeepSeek)가 초대형 AI 모델 ‘딥시크 V3’를 공개하며 글로벌 AI 경쟁 구도에 새로운 변화를 예고하고 있다. 딥시크 V3는 6,710억 개의 파라미터를 갖춘 MoE(Mixture-of-Experts) 기반 모델로, 특정 작업에서는 GPT-4o를 능가하는 성능을 보였다.
엔비디아 ‘H800’ GPU를 활용해 82억 원의 비용으로 훈련을 완료한 딥시크 V3는, 기존 모델 대비 뛰어난 효율성을 자랑한다. 이는 Meta의 Llama 3.1 405B 모델이 7,300억 원의 훈련 비용과 3,084만 GPU 시간을 소모한 것과 비교했을 때 1% 수준의 비용으로 개발된 셈이다.
MoE 아키텍처를 적용한 딥시크 V3는 입력된 토큰을 분석해 적절한 전문가 모델을 선택적으로 활용하는 방식으로 성능을 극대화했다. 또한 MLA(Multi-head Latent Attention) 기술을 도입해 메모리 사용량을 줄이고 핵심 정보를 효율적으로 저장할 수 있도록 설계했다. 더불어 FP8 혼합 정밀도 학습 프레임워크를 통해 학습 비용을 절감하고 모델의 훈련 속도를 향상시켰다.
벤치마크 테스트에서 GPT-4o를 능가
딥시크 V3는 다양한 벤치마크 테스트에서 우수한 성능을 기록했다. 특히 수학과 코딩 분야에서 강점을 보이며, HumanEval(코딩) 테스트에서는 82.6%, Math 500(수학) 테스트에서는 90.2%의 높은 점수를 기록했다. 이는 GPT-4o 보다 높은 수치로, 딥시크 V3의 연산 및 추론 능력이 경쟁 모델을 뛰어넘었음을 보여준다.
실제 테스트에서도 딥시크 V3는 GPT-4o 와의 비교에서 뛰어난 성능을 입증했다. 예를 들어, 주어진 평행사변형 문제에서 GPT-4o이 일부 정답만 도출한 반면, 딥시크 V3는 가능한 모든 꼭짓점을 계산하여 제시했다.
추론 능력에서는 ‘강 건너기 문제’를 통해 비교가 이루어졌다. 세 모델 모두 정답을 도출했으나, 딥시크 V3는 일부 단계에서 농부의 위치를 잘못 표기하는 오류가 있었고, GPT-4o는 농부의 존재를 아예 생략하는 실수를 범했다.
글쓰기 테스트에서는 세 모델이 각각 다른 스타일의 창의적인 대사를 제공했으며, 딥시크 V3가 가장 자연스럽고 맥락에 맞는 문장을 생성했다는 평가를 받았다.
딥시크 V3의 등장으로 글로벌 AI 시장에서 중국 기업의 존재감이 한층 강화될 전망이다. 미국 중심의 AI 패권에 균열이 발생할 가능성이 제기되는 가운데, 딥시크 V3는 낮은 비용으로도 고성능 AI 모델을 개발할 수 있음을 증명하며 중국 AI 기술의 발전을 실감하게 한다.
특히, 중국 정부의 AI 규제 및 사전 검토 제도 속에서도 딥시크가 글로벌 경쟁력을 확보했다는 점은 주목할 만하다. 이에 따라 AI 기술이 단순한 성능 경쟁을 넘어 각국의 이념과 정책, 검열 체계까지 반영하는 양상을 보이며, AI 산업이 새로운 국면에 접어들었다는 분석이 나온다.
앞으로 딥시크 V3가 오픈소스 형태로 공개될 가능성이 있는지, 그리고 글로벌 AI 시장에서 어떤 역할을 하게 될지 귀추가 주목된다. 또한, 미국과 중국 간 AI 기술 경쟁이 심화되면서, 각국의 AI 전략 및 규제 방향이 글로벌 AI 생태계에 어떤 영향을 미칠지도 중요한 관전 포인트가 될 것으로 보인다.
AI 패권 경쟁이 가속화되는 가운데, 딥시크 V3의 등장이 어떤 파장을 불러올지 관심이 집중된다.