OpenAI réduit de 50 % ses coûts d'inférence, déclenchant une guerre des prix face à ses concurrents

OpenAI a réduit de moitié ses coûts d'inférence, lui donnant les moyens de sous-coter ses rivaux tout en préparant une levée de fonds de 120 milliards de dollars.

Les ingénieurs d'OpenAI ont réduit de plus de 50 % les coûts d'inférence de certains modèles existants, permettant à l'entreprise de proposer son modèle phare GPT-5.6 Sol à moitié prix par rapport au Claude Fable 5 d'Anthropic, tout en le surpassant sur les benchmarks.

L'entreprise considère cette méthode comme une « recette secrète » soumise à des contrôles d'accès internes stricts, selon The Information. « Ils ne veulent même pas en informer les autres employés d'OpenAI, car si cela fuit, d'autres laboratoires pourraient l'adopter et réduire leurs coûts aussi », a déclaré la journaliste Steph Palazzolo.

Sol a obtenu un score supérieur à celui du Claude Mythos 5 d'Anthropic sur le benchmark Terminal-Bench 2.1, tout en coûtant 50 % de moins que le Claude Fable 5. Ces gains d'efficacité permettent également à OpenAI de faire fonctionner le trafic ChatGPT des utilisateurs non connectés sur seulement quelques centaines de GPU Nvidia, une fraction des besoins typiques pour un service comptant des centaines de millions d'utilisateurs actifs mensuels.

Cet avantage de coût survient alors qu'OpenAI se prépare à un tour de table de 120 milliards de dollars, pour une valorisation pré-monétaire de 730 milliards de dollars, le directeur général Sam Altman poussant pour une introduction en bourse avant Anthropic. L'amélioration des marges apporte un soutien financier crucial à ce récit de valorisation, qui repose sur des améliorations durables de la rentabilité.

Le virage vers l'entreprise

Cette percée dans l'inférence soutient un changement stratégique plus large chez OpenAI. La responsable des applications, Fidji Simo, a déclaré aux employés lors d'une récente réunion générale que l'entreprise allait déprioriser les produits grand public comme le générateur vidéo Sora — qu'elle a fermé pour rediriger les ressources de calcul — et se concentrer sur les outils destinés aux entreprises et les produits de codage, où les marges sont plus élevées. Cette décision reflète la reconnaissance du fait que les produits d'IA destinés au grand public sont confrontés à des marges faibles et à une concurrence intense de la part d'alternatives gratuites, tandis que les clients professionnels paient des tarifs premium pour la fiabilité, la sécurité et la personnalisation.

L'accent mis par OpenAI sur les outils de codage est particulièrement stratégique. Le développement logiciel représente l'un des plus grands marchés adressables pour l'IA, GitHub Copilot et des outils similaires générant déjà des milliards de dollars de revenus annuels. En combinant des coûts d'inférence plus faibles avec des performances de codage supérieures, OpenAI peut sous-coter ses concurrents comme GitHub Copilot et Amazon CodeWhisperer sur les prix tout en maintenant la qualité.

Indépendance infrastructurelle

La réduction des coûts s'aligne également sur la volonté d'OpenAI de posséder davantage de son infrastructure. L'entreprise s'est récemment associée à Broadcom pour développer une puce d'inférence personnalisée, une décision qui pourrait réduire sa dépendance aux GPU Nvidia. Le chiffre d'affaires du centre de données de Nvidia a atteint 62 milliards de dollars au cours du dernier exercice fiscal, porté en grande partie par les charges de travail d'inférence IA fonctionnant sur les processeurs H100 et B200. Une puce personnalisée pourrait faire économiser à OpenAI des milliards de dollars par an en coûts d'approvisionnement en GPU, élargissant encore son avantage en termes de marge par rapport aux rivaux qui dépendent de matériel tiers.

Les gains d'efficacité pourraient provenir de techniques telles que la quantification — qui réduit la précision des poids du modèle pour accélérer les calculs — et des optimisations de cache qui stockent les résultats fréquemment utilisés. Ces méthodes sont bien connues dans l'industrie, mais la capacité d'OpenAI à réaliser une réduction de 50 % suggère des améliorations propriétaires que les concurrents n'ont pas encore égalées.

Pour les investisseurs, la question clé est de savoir si l'avantage de coût d'OpenAI est durable. Si des concurrents comme Anthropic, Google DeepMind ou Meta reproduisent l'approche, l'avantage tarifaire pourrait rapidement s'éroder. Les actions d'OpenAI ne sont pas négociées en bourse, mais la valorisation de 730 milliards de dollars de l'entreprise sur le marché privé implique que les investisseurs intègrent déjà une amélioration durable des marges — ce qui fait de toute érosion de cet avantage un risque pour le récit de l'introduction en bourse. Le partenariat de l'entreprise avec Broadcom et le secret interne autour des méthodes de réduction des coûts suggèrent qu'OpenAI parie que son avance en matière d'efficacité d'inférence durera assez longtemps pour consolider sa part de marché avant que les concurrents ne rattrapent leur retard.

Cet article est fourni à titre informatif uniquement et ne constitue pas un conseil en investissement.