La nouvelle architecture d'IA de la startup chinoise DeepSeek promet de faire fonctionner des modèles d'un million de tokens avec 73 % de ressources de calcul en moins, menaçant directement la structure des coûts du marché actuel du matériel d'IA. La société affirme que son nouveau modèle V4 peut gérer un contexte d'un million de tokens en utilisant seulement 27 % de la puissance de calcul et 10 % de la mémoire de son prédécesseur, un changement structurel qui pourrait réduire considérablement les coûts pour les développeurs et intensifier la concurrence pour les acteurs établis comme Nvidia et Google.
"Désormais, le contexte 1M (un million) sera la configuration standard pour tous les services officiels de DeepSeek", a déclaré la société dans son annonce officielle. Cette initiative est un défi direct aux coûts élevés associés à l'IA à large contexte, un problème que le PDG de Nvidia, Jensen Huang, a souligné comme un obstacle critique. Bien que les tests de référence de DeepSeek montrent qu'il reste derrière les modèles propriétaires les plus avancés de Google en termes de connaissances générales, ses gains d'efficacité représentent une nouvelle menace redoutable dans la course aux armements de l'IA.
L'efficacité du modèle V4 provient d'une nouvelle architecture d'attention hybride. Elle réduit la charge de calcul, mesurée en opérations en virgule flottante par seconde (FLOPs), à seulement 27 % du précédent modèle V3.2 pour l'inférence d'un seul token dans un contexte de 1M de tokens. Le cache KV requis, un goulot d'étranglement clé pour la mémoire, est réduit à seulement 10 % de la version précédente. La société a publié deux versions : la V4-Pro, un modèle de 1,6 billion de paramètres, et un modèle V4-Flash plus petit, tous deux disponibles sous licence open-source MIT.
Pour les investisseurs, la percée de DeepSeek représente une perturbation potentielle du marché actuel. En concevant un modèle moins dépendant de la puissance de calcul brute, l'entreprise ouvre la voie à des matériels alternatifs, tels que les puces Ascend de Huawei. Cela correspond aux avertissements du PDG de Nvidia lui-même concernant la Chine construisant sa propre pile technologique d'IA indépendante. DeepSeek, qui chercherait une valorisation de plus de 20 milliards de dollars avec le soutien d'Alibaba et de Tencent, pourrait compresser les marges des fournisseurs de cloud et des fabricants de puces si ses avantages en termes de coûts s'avèrent évolutifs et entraînent une adoption généralisée.
Une attaque structurelle contre les coûts de calcul
L'innovation au cœur de DeepSeek V4 est une approche à deux volets pour redéfinir le mécanisme d'attention, le cœur informatique d'un modèle transformer. L'attention standard exige que chaque token calcule un score de pertinence avec tous les autres tokens d'une séquence, ce qui entraîne une complexité de calcul qui croît de manière quadratique — un obstacle majeur à la commercialisation des fenêtres de contexte d'un million de tokens.
La solution de DeepSeek combine l'attention clairsemée compressée (Compressed Sparse Attention - CSA) et l'attention fortement compressée (Heavily Compressed Attention - HCA). La CSA utilise un mécanisme entraînable pour apprendre quelles connexions de tokens sont suffisamment importantes pour un calcul complet, créant dynamiquement une structure clairsemée au lieu de tout calculer. La HCA s'attaque au problème de mémoire en compressant le cache KV, les données qui doivent être conservées dans la mémoire GPU coûteuse pendant l'inférence. Ensemble, ces innovations permettent à DeepSeek de servir 3 à 4 fois plus d'utilisateurs simultanés sur le même matériel par rapport aux architectures traditionnelles.
Les benchmarks révèlent une menace spécialisée
Bien que l'efficacité du DeepSeek V4-Pro soit sa caractéristique principale, ses performances dans les tests de référence dépeignent un concurrent spécialisé. Le modèle excelle en mathématiques et en codage, avec un score de 3206 sur Codeforces, dépassant les scores rapportés pour les modèles d'OpenAI et de Google. Cependant, dans les tests de connaissances générales et de raisonnement avancé, il reste en retrait. Sur le benchmark SimpleQA-Verified, le V4 a obtenu 57,9, bien loin du score de 75,6 du Gemini 3.1 Pro de Google.
Cela suggère que DeepSeek concentre ses ressources sur des capacités spécifiques à haute valeur ajoutée où il peut établir une avance claire, plutôt que d'essayer de battre les modèles de pointe sur tous les fronts. Cette stratégie, combinée à son approche open-source et à bas prix, lui a déjà permis de dominer les classements de téléchargement de l'App Store d'Apple au cours de ses premières semaines, signalant un fort appétit du marché pour des alternatives aux modèles propriétaires coûteux des géants technologiques américains. L'émergence d'un modèle puissant et rentable optimisé pour du matériel non américain est exactement le scénario que Jensen Huang de Nvidia a décrit comme un "résultat horrible pour notre nation", et il semble se dérouler plus rapidement que prévu. La question clé pour les investisseurs est de savoir à quelle vitesse cet avantage architectural se traduira en parts de marché et en revenus, et si les acteurs historiques comme Nvidia peuvent adapter leurs propres feuilles de route pour contrer la menace d'un monde matériel d'IA plus efficace et multipolaire.
Cet article est à titre informatif uniquement et ne constitue pas un conseil en investissement.