60% des entreprises freinent leurs dépenses en IA face à la flambée des coûts de tokens, selon UBS

Près de 60 % des entreprises ont imposé des contrôles sur leurs dépenses en IA, a constaté UBS, la consommation de tokens par les agents et les outils de codage attirant l'attention des directeurs financiers et poussant à un virage vers des modèles moins chers, y compris les alternatives open-source chinoises.

« C'est un ralentissement important, pas un petit », a déclaré Ali Ghodsi, PDG de Databricks, en décrivant ce réajustement.

L'écart de prix entre les catégories est saisissant : l'Haiku 4.5 d'Anthropic facture 5 $ par million de tokens en sortie, tandis que son modèle haut de gamme Fable/Mythos 5 coûte 50 $ — soit un écart décuplé qui rend le routage de modèles économiquement intéressant. Une entreprise a vu un seul utilisateur accumuler 35 000 $ de coûts mensuels d'IA sur AWS Bedrock, selon le rapport. Une autre a réduit ses outils d'IA internes de cinq à deux après avoir épuisé son budget de tokens.

Ce basculement menace la croissance des revenus des fournisseurs d'IA premium tels qu'Anthropic et OpenAI, tout en créant des opportunités pour les alternatives moins chères. Les modèles open-source chinois — Qwen d'Alibaba, DeepSeek, MiniMax et GLM de Zhipu — font leur entrée dans les listes d'approvisionnement des entreprises. Une grande banque mondiale a déployé Qwen en local pour équilibrer son utilisation de Claude d'Anthropic, indique le rapport.

Le routage de modèles redessine la courbe des coûts

La réponse technique la plus conséquente est le routage de modèles — confier les tâches simples à des modèles bon marché et réserver les modèles coûteux aux raisonnements complexes. Palantir Technologies a commercialisé cette approche il y a environ un mois avec AIP Evolve, qui a dans un cas réduit les coûts de tokens d'un client de 97 %. Le produit a atteint 90 % d'adoption dans les trois semaines suivant son lancement, selon le rapport.

La sortie par Microsoft de son modèle MAI « Thinking », un système de 35 milliards de paramètres, cible également ce juste milieu — suffisamment puissant pour des tâches de raisonnement mais moins cher que les modèles de pointe. Cette stratégie reflète une tendance plus large de l'industrie vers une IA « suffisamment bonne » à des prix plus bas.

La pression sur les coûts accélère l'adoption des modèles open-source chinois. AWS Bedrock propose désormais MiniMax, Kimi de Moonshot, Qwen, DeepSeek et GLM dans son catalogue de modèles. Microsoft propose DeepSeek via Azure AI Foundry. Bien que ces modèles soient généralement gratuits ou peu coûteux, ce qui limite les revenus directs de leurs développeurs, ils créent des opportunités de partenariat — BMW et Alibaba ont récemment collaboré autour de Qwen pour des applications automobiles. Le déploiement local de modèles open-source évite également les risques réglementaires liés à l'utilisation d'IA chinoise hébergée à l'extérieur, ce qui les rend viables pour les secteurs réglementés comme la banque.

Les fournisseurs de cloud et de logiciels confrontés à des pressions inégales

Les plateformes cloud sont relativement à l'abri de ce virage des dépenses. AWS, Azure et Google Cloud exploitent des places de marché multi-modèles : lorsque les clients passent de modèles premium à des modèles moins chers, la croissance des revenus d'API peut ralentir, mais la consommation de calcul reste soutenue. « Plus les entreprises gèrent leurs coûts, plus elles sont susceptibles de centraliser la sélection, le déploiement et la facturation des modèles sur une seule plateforme cloud », écrivent les analystes d'UBS.

La demande de matériel reste également intacte. Les puces GB200 et GB300 de Nvidia commencent tout juste leurs expéditions en volume, et les charges de travail multimodales — audio, vidéo, IA physique — continuent d'élargir le périmètre de calcul. La question pour les investisseurs est de savoir si la compression des prix des modèles d'IA finira par limiter le pouvoir de fixation des prix des GPU dans le cloud.

Les plus grandes plateformes SaaS sont confrontées à la situation la plus complexe. Salesforce, ServiceNow et Workday tentent de passer d'une tarification par siège à une tarification basée sur la consommation, au moment même où les clients deviennent sensibles aux coûts. Ce décalage temporel pourrait ralentir leurs efforts de monétisation de l'IA. Pourtant, les éditeurs de logiciels ont également une opportunité en tant qu'optimiseurs des coûts de l'IA. AIP Evolve de Palantir en est l'exemple le plus clair, mais l'avantage structurel appartient à toute plateforme capable de jouer le rôle de couche de routage indépendante du modèle.

UBS Evidence Lab a enquêté auprès d'environ 130 entreprises et a constaté que seulement 8 % ont déployé des agents d'IA en production à grande échelle. 37 % supplémentaires les utilisent en production limitée, 29 % mènent des projets pilotes et 26 % n'utilisent que Copilot ou des outils de codage sans déploiement d'agents. L'essentiel de la consommation de tokens par les agents autonomes n'a pas encore commencé. Harvey, un assistant juridique basé sur l'IA, a vu sa consommation de tokens passer de 1 000 milliards en janvier à 12 000–13 000 milliards en mai — preuve que l'optimisation et l'expansion peuvent coexister.

Ces contrôles des dépenses diffèrent fondamentalement de la réduction des budgets cloud post-pandémique de 2022 à 2024. Il s'agissait alors de réductions sur une utilisation mature. Aujourd'hui, c'est une gouvernance des coûts en phase de diffusion précoce d'une technologie. Le résultat n'est pas une disparition de la demande d'IA, mais un réordonnancement des gagnants : les fournisseurs de modèles premium font face à une croissance des revenus ralentie, les plateformes d'optimisation des coûts en profitent, les fournisseurs de cloud collectent des charges de travail multi-modèles, et les modèles open-source chinois gagnent une place dans l'infrastructure mondiale des entreprises.

Cet article est fourni à titre d'information uniquement et ne constitue pas un conseil en investissement.