CoreWeave, 2분 만에 DeepSeek-V3 학습… AI 클라우드 신기록 수립

CoreWeave는 6,710억 개의 파라미터를 가진 DeepSeek-V3 모델을 2분 조금 넘는 시간 만에 학습시켰으며, 이는 AI 네이티브 클라우드 제공업체의 풀스택 인프라 전략을 입증하는 결과다.

CoreWeave Inc.는 8,192개의 NVIDIA GB300 GPU를 사용해 6,710억 개 파라미터의 DeepSeek-V3 모델을 2.02분 만에 학습시켰다. 이는 MLPerf Training v6.0 벤치마크에서 가장 빠른 기록이자, 해당 라운드에 제출된 가장 큰 규모의 GB300 클러스터다.

CoreWeave의 제품 및 엔지니어링 담당 부사장인 첸 골드버그(Chen Goldberg)는 "가장 큰 GB300 클러스터에서 단 2분 만에 DeepSeek-V3를 학습시킨 것은 수년간의 메탈-투-모델 엔지니어링 투자의 결실"이라고 말했다.

이 회사는 8,192개 GPU에서 2.02분, 4,096개 GPU에서 3.09분, 2,048개 GPU에서 5.54분 등 세 가지 클러스터 규모에 걸쳐 거의 선형에 가까운 확장성을 입증했다. 또한 CoreWeave는 4,096개의 GB300 GPU를 사용해 Llama-3.1-405B를 9.77분 만에 학습시켰으며, 이는 유사한 GB200 배포보다 20% 적은 GPU를 사용한 것이다. 소형 64-GPU B200 클러스터에서는 GPT-OSS-20B를 26.98분, Llama-3.1-8B를 16.54분 만에 학습시켰다.

고객에게 제공되는 동일한 인프라에서 달성된 이번 결과는 전문 AI 학습 시장에서 하이퍼스케일러에 맞서는 CoreWeave의 입지를 강화한다. CoreWeave의 주식은 2025년 3월 상장 이후 나스닥에서 CRWV 티커로 거래되고 있다.

MLPerf v6.0 결과가 AI 학습 시장에 대해 보여주는 것

MLCommons가 6월 16일 발표한 MLPerf Training v6.0은 DeepSeek V3와 GPT-OSS 20B라는 두 가지 새로운 벤치마크를 추가했다. 두 모델 모두 토큰당 모델 전체 파라미터 중 일부만 활성화하는 MoE(Mixture-of-Experts) 아키텍처를 기반으로 한다. DeepSeek V3는 총 6,710억 개의 파라미터 중 토큰당 370억 개를 활성화하여, 해당 스위트 역사상 가장 큰 벤치마크가 되었다. GPT-OSS 20B는 총 210억 개의 파라미터와 토큰당 36억 개 활성화로 설계되어, 소규모 하드웨어 구성을 가진 조직을 위한 진입점 역할을 한다.

이번 라운드에는 24개 조직이 참여하여 95개의 고유 시스템을 제출했으며, 13개의 서로 다른 하드웨어 가속기와 19개의 호스트 프로세서가 사용되었다. 클라우드 시스템 제출 수는 6개월 전 버전 5.1 대비 두 배 이상 증가하여, 호스티드 AI 학습 시장의 성장을 반영했다. 제출된 시스템의 60%는 멀티노드 시스템이었다.

Futurum Research의 연구 책임자 브렌던 버크(Brendan Burke)는 "벤치마크 성능과 프로덕션 현실 간의 격차는 AI 인프라에서 가장 지속적인 과제 중 하나로 남아있다"며 "CoreWeave의 MLPerf Training v6.0 결과, 특히 벤치마크 사상 최대 규모의 GB300 클러스터에서 DeepSeek-V3를 2분 만에 학습시킨 성과는 새로운 하드웨어가 도입될 때 풀스택 AI 전문성이 실제 성능 향상으로 이어짐을 보여준다"고 평가했다.

CoreWeave의 인프라 스택이 어떻게 결과를 이끌어냈는가

CoreWeave는 플랫폼의 모든 계층에 걸친 최적화 덕분에 성과를 거둘 수 있었다고 설명했다. CoreWeave Mission Control은 랙-스케일 시스템에 대한 지속적인 헬스 체크를 수행하여 대규모 학습 작업 전과 도중에 하드웨어, 펌웨어, 네트워크 및 열 상태를 검증함으로써 지연 노드를 줄인다. 회사의 SUNK 스케줄러는 토폴로지를 인식하여 MoE 워크로드에 대해 인터랙 통신을 최소화하도록 동일한 NVL72 도메인 내에 전문가-병렬 그룹을 배치한다. 레일-인지 네트워킹 전략은 수천 개 GPU 규모에서 핫스팟을 방지하기 위해 패브릭 전체의 트래픽을 균형 있게 조정한다.

학습 실행에는 CUDA 그래프가 포함된 NVIDIA NeMo Framework Release 26.04와 GB300 NVL72 토폴로지에 맞춰진 텐서, 파이프라인 및 컨텍스트-병렬 샤딩, 그리고 스케일-아웃 패브릭용 RoCE를 실행하는 NVIDIA Spectrum-X 이더넷이 사용되었다.

CoreWeave는 DeepSeek-V3에서 GB300 플랫폼을 2,048개 GPU 이상으로 확장한 유일한 제출 기업이다. 또한 SemiAnalysis ClusterMAX 1.0과 2.0에서 모두 최고 등급인 Platinum 순위를 획득한 유일한 AI 클라우드이기도 하다.

AI 클라우드 경쟁 환경에 미치는 의미

CoreWeave의 벤치마크 결과는 AI 학습 인프라에 대한 수요가 가속화되는 시점에 나왔다. Sharon AI(SHAZ)는 지난 금요일 NVIDIA와의 6년 전략적 컴퓨팅 협업을 발표한 후 약 25% 급등했으며, 이번 계약에는 호주 내 72메가와트 규모의 신규 데이터센터 용량에 최대 4만 개의 GB300 GPU가 포함될 수 있다. 이번 거래로 Sharon AI의 총 AI 팩토리 풋프린트는 132메가와트로 확장된다.

CoreWeave의 경우, MLPerf 결과는 기업들이 대규모 AI 워크로드를 위한 클라우드 제공업체를 평가하는 시점에 플랫폼에 대한 독립적인 검증을 제공한다. 동일한 인프라를 고객에게 제공하면서도 가장 까다로운 MoE 모델에서 거의 선형에 가까운 확장성을 제공할 수 있는 능력은, v6.0 라운드에 결과를 제출한 Amazon Web Services, Microsoft Azure, Google Cloud와의 차별화 요소를 만들어낸다.

2025년 3월 상장한 CoreWeave의 주식은 AI 인프라 구축의 대리 지표 역할을 해왔다. 이번 MLPerf 결과는 AI 학습 시장이 희소 연산 아키텍처로 전환됨에 따라 투자자들에게 회사의 풀스택 접근 방식이 지속 가능한 경쟁 우위로 이어지는지 평가할 수 있는 구체적인 벤치마크를 제공한다.

본 기사는 정보 제공 목적으로만 작성되었으며 투자 조언을 구성하지 않습니다.