CoreWeave entraîne DeepSeek-V3 en 2 minutes et établit un record dans le cloud IA

CoreWeave a entraîné le modèle DeepSeek-V3 de 671 milliards de paramètres en un peu plus de deux minutes, un résultat qui valide la stratégie d'infrastructure full-stack du fournisseur de cloud natif IA.

CoreWeave Inc. a entraîné DeepSeek-V3, un modèle de 671 milliards de paramètres, en 2,02 minutes sur 8 192 GPU NVIDIA GB300 — le résultat le plus rapide du benchmark MLPerf Training v6.0 et la plus grande grappe GB300 soumise lors de cette édition.

« Entraîner DeepSeek-V3 en deux minutes sur la plus grande grappe GB300 reflète des années d'investissement en ingénierie, du métal au modèle », a déclaré Chen Goldberg, vice-présidente exécutive des produits et de l'ingénierie chez CoreWeave.

L'entreprise a démontré une mise à l'échelle quasi linéaire sur trois tailles de grappe : 2,02 minutes sur 8 192 GPU, 3,09 minutes sur 4 096 GPU et 5,54 minutes sur 2 048 GPU. CoreWeave a également entraîné Llama-3.1-405B en 9,77 minutes sur 4 096 GPU GB300, utilisant 20 % de GPU de moins que les déploiements comparables sur GB200. Sur une grappe compacte de 64 GPU B200, elle a entraîné GPT-OSS-20B en 26,98 minutes et Llama-3.1-8B en 16,54 minutes.

Ces résultats, obtenus sur la même infrastructure accessible aux clients, renforcent la position de CoreWeave face aux hyperscalers sur le marché spécialisé de l'entraînement IA. Les actions CoreWeave sont cotées au Nasdaq sous le symbole CRWV depuis son introduction en bourse en mars 2025.

Ce que révèlent les résultats MLPerf v6.0 sur le marché de l'entraînement IA

MLPerf Training v6.0, publié le 16 juin par MLCommons, a ajouté deux nouveaux benchmarks — DeepSeek V3 et GPT-OSS 20B — tous deux construits sur une architecture Mixture-of-Experts, qui n'active qu'une fraction des paramètres totaux d'un modèle par jeton. DeepSeek V3 utilise 671 milliards de paramètres totaux avec 37 milliards activés par jeton, ce qui en fait le plus grand benchmark de l'histoire de la suite. GPT-OSS 20B, avec 21 milliards de paramètres totaux et 3,6 milliards activés, a été conçu comme un point d'entrée pour les organisations disposant de configurations matérielles plus modestes.

Cette édition a réuni 24 organisations soumissionnaires sur 95 systèmes uniques, utilisant 13 accélérateurs matériels différents et 19 processeurs hôtes. Les soumissions de systèmes cloud ont plus que doublé par rapport à la version 5.1 il y a six mois, reflétant la croissance du marché de l'entraînement IA hébergé. Soixante pour cent des systèmes soumis étaient multi-nœuds.

« L'écart entre les performances des benchmarks et la réalité de la production reste l'un des défis les plus persistants de l'infrastructure IA », a déclaré Brendan Burke, directeur de recherche chez Futurum Research. « Les résultats de CoreWeave dans MLPerf Training v6.0, notamment l'entraînement de DeepSeek-V3 en deux minutes sur la plus grande grappe GB300 du benchmark, démontrent qu'une expertise IA full-stack amplifie les gains de performance réels à mesure que de nouveaux matériels arrivent. »

Comment la pile d'infrastructure de CoreWeave a permis ces résultats

CoreWeave attribue ses performances aux optimisations effectuées à chaque couche de sa plateforme. CoreWeave Mission Control effectue des contrôles de santé continus sur les systèmes à l'échelle des baies, validant les conditions matérielles, firmware, réseau et thermiques avant et pendant les tâches d'entraînement à grande échelle afin de réduire les nœuds retardataires. Le planificateur SUNK de l'entreprise est sensible à la topologie, co-localisant les groupes de parallélisme d'experts au sein d'un même domaine NVL72 pour minimiser les communications inter-baies pour les charges de travail MoE. Une stratégie de réseautage rail-aware équilibre le trafic sur la matrice pour éviter les points chauds à l'échelle de plusieurs milliers de GPU.

Les exécutions ont utilisé NVIDIA NeMo Framework Release 26.04 avec des graphes CUDA et un partitionnement parallèle Tensor, pipeline et contexte adapté à la topologie GB300 NVL72, ainsi que NVIDIA Spectrum-X Ethernet utilisant RoCE pour la matrice d'extension.

CoreWeave a été le seul soumissionnaire à faire évoluer une plateforme GB300 au-delà de 2 048 GPU sur DeepSeek-V3. L'entreprise est également le seul cloud IA à obtenir le classement Platine le plus élevé dans SemiAnalysis ClusterMAX 1.0 et 2.0.

Ce que cela signifie pour le paysage concurrentiel du cloud IA

Les résultats de benchmark de CoreWeave arrivent alors que la demande d'infrastructure d'entraînement IA s'accélère. Sharon AI (SHAZ) a bondi d'environ 25 % vendredi après avoir annoncé une collaboration stratégique de six ans avec NVIDIA pour le calcul intensif, qui pourrait inclure jusqu'à 40 000 GPU GB300 répartis sur 72 mégawatts de nouvelle capacité de centre de données en Australie. Cet accord porte l'empreinte totale de l'usine IA de Sharon AI à 132 mégawatts.

Pour CoreWeave, les résultats MLPerf constituent une validation indépendante de sa plateforme à un moment où les entreprises évaluent les fournisseurs de cloud pour les charges de travail IA à grande échelle. La capacité de l'entreprise à offrir une mise à l'échelle quasi linéaire sur les modèles MoE les plus exigeants — tout en utilisant la même infrastructure qu'elle propose à ses clients — crée un différenciateur mesurable face à Amazon Web Services, Microsoft Azure et Google Cloud, qui ont également soumis des résultats dans le cadre du v6.0.

L'action CoreWeave, cotée depuis mars 2025, sert de proxy pour le développement de l'infrastructure IA. Les résultats MLPerf offrent aux investisseurs un benchmark concret pour évaluer si l'approche full-stack de l'entreprise se traduit par un avantage concurrentiel durable, alors que le marché de l'entraînement IA évolue vers des architectures de calcul sparse.

Cet article est fourni à titre d'information uniquement et ne constitue pas un conseil en investissement.