Anthropic lance Claude Sonnet 5 à 60 % de moins que l'Opus 4.8

Anthropic a publié Claude Sonnet 5 mardi, un modèle intermédiaire qui égale ou s'approche de son modèle phare Opus 4.8 sur les principaux benchmarks tout en coûtant 60 % de moins par jeton, alors que la capacité agentique devient le nouveau standard dans toute l'industrie des modèles de fondation.

« Il peut élaborer des plans, utiliser des outils comme des navigateurs et des terminaux, et fonctionner de manière autonome à un niveau qui, il y a seulement quelques mois, nécessitait des modèles plus grands et plus coûteux », a déclaré Anthropic dans un article de blog.

Sonnet 5 obtient un score de 63,2 % sur SWE-bench Pro pour le codage agentique, contre 58,1 % pour Sonnet 4.6 et à portée des 69,2 % de l'Opus 4.8. Sur le benchmark de travail cognitif GDPval-AA v2, il a dépassé le modèle phare, avec un score de 1 618 contre 1 615 pour l'Opus 4.8. La tarification API d'introduction est fixée à 2 $ par million de jetons d'entrée et 10 $ par million de jetons de sortie jusqu'au 31 août, après quoi elle passe à 3 $ et 15 $ — toujours bien en dessous des 5 $ et 25 $ de l'Opus 4.8.

Ce lancement intervient alors qu'Anthropic se précipite vers une introduction en bourse qui mettra à l'épreuve la capacité des valorisations de l'IA sur les marchés privés à résister à l'examen public. La société a déclaré un chiffre d'affaires annualisé de 47 milliards de dollars après sa série H en mai, mais les marges brutes — un chiffre qu'aucun observateur externe n'a vu — détermineront si le récit tient la route, selon Harrison Rolfes, analyste chez PitchBook.

La fiabilité agentique comble l'écart entre le pilote et la production

Les partenaires en accès anticipé ont rapporté que Sonnet 5 termine des workflows en plusieurs étapes où les modèles précédents calaient. Daniel Shepard, ingénieur senior chez Zapier, a déclaré que le modèle a réalisé un travail d'automatisation en deux parties — mise à jour des niveaux de comptes Salesforce et envoi d'une annonce de lancement — qui « avait l'habitude de caler à mi-parcours » avec les versions précédentes. Sualeh Asif, cofondateur de Cursor, a indiqué qu'« avec Claude Sonnet 5, les agents restent sur le plan, suivent nos conventions et livrent des changements propres en plusieurs étapes, le tout à un coût efficient ».

Ces témoignages répondent à l'écart de fiabilité qui a empêché de nombreuses entreprises de faire passer l'IA agentique des programmes pilotes à la production. Un modèle qui termine le workflow complet change l'économie de l'automatisation, en particulier au niveau de prix de Sonnet 5. Anthropic a introduit des courbes coût-performance montrant que les développeurs peuvent désormais ajuster les niveaux d'effort entre Sonnet 5 et Opus 4.8 pour trouver l'équilibre optimal entre coût et précision pour des cas d'usage spécifiques.

Cette sortie reflète des mouvements similaires de la part des concurrents. Le GPT-5.6 Sol d'OpenAI, lancé en version préliminaire la semaine dernière, permet aux utilisateurs de répartir le travail entre sous-agents pour des tâches autonomes plus longues. Le Gemini 3.5 Flash de Google, publié en mai, a été présenté comme un passage du chatbot conversationnel à l'outil agentique. Le schéma confirme que la capacité agentique est désormais un prérequis à tous les niveaux de prix, le facteur différenciant se déplaçant vers l'efficacité des coûts et la fiabilité sans supervision humaine.

La sécurité s'améliore mais reste en retard sur les modèles les plus performants

Sonnet 5 présente des taux d'hallucination et de sycophantie inférieurs à ceux de Sonnet 4.6, est meilleur pour refuser des requêtes malveillantes et est plus résistant aux attaques par injection de prompt dans des contextes agentiques, selon les évaluations internes d'Anthropic. Lors de l'audit comportemental automatisé de l'entreprise, Sonnet 5 a obtenu un score global inférieur — donc plus sûr — par rapport à son prédécesseur.

Cependant, il a montré des taux d'alignement problématique légèrement plus élevés par rapport à l'Opus 4.8 et au Claude Mythos Preview, le modèle de cybersécurité strictement restreint d'Anthropic. Lors d'une évaluation du développement d'exploit Firefox 147 réalisée avec Mozilla, aucun des modèles Sonnet n'a pu développer un exploit fonctionnel — les deux ont obtenu 0 % — bien que Sonnet 5 ait montré un taux de réussite partielle légèrement supérieur de 13,2 % contre 8,8 % pour Sonnet 4.6. L'Opus 4.8 a obtenu 68,8 % et Mythos 5 a obtenu 88,4 %.

En raison de ces gains progressifs, Anthropic a lancé Sonnet 5 avec des garanties de cybersécurité activées par défaut — des systèmes en temps réel qui détectent et bloquent les utilisations dangereuses en cybersécurité. Ces garanties sont similaires à celles de l'Opus 4.7 et 4.8 mais moins restrictives que celles appliquées à Fable 5 et Mythos 5.

Un détail technique mérite l'attention : Sonnet 5 utilise un tokenizer mis à jour qui modifie la façon dont le modèle traite le texte, similaire au changement qu'Anthropic a introduit avec l'Opus 4.7. La même entrée peut correspondre à environ 1,0 à 1,35 fois plus de jetons selon le type de contenu. Anthropic affirme que la tarification d'introduction est calibrée pour rendre la transition « à peu près neutre en termes de coûts », mais les clients professionnels exécutant des charges de travail à volume élevé voudront comparer leurs cas d'usage spécifiques avant de supposer que leurs factures ne changeront pas.

Le récit de l'introduction en bourse et ce que Sonnet 5 signifie pour les investisseurs

La trajectoire financière d'Anthropic a été extraordinaire. En février, elle a levé 30 milliards de dollars pour une valorisation de 380 milliards de dollars avec un chiffre d'affaires annualisé de 14 milliards de dollars. Fin mai, elle avait finalisé une série H de 65 milliards de dollars pour une valorisation post-monétaire de 965 milliards de dollars avec un chiffre d'affaires annualisé supérieur à 47 milliards de dollars. La société a confidentiellement déposé son prospectus d'introduction en bourse auprès de la SEC début juin.

Sonnet 5 remplit un double objectif dans ce contexte. Pour les développeurs, il offre de réelles améliorations de capacités à des prix compétitifs. Pour le récit d'introduction en bourse d'Anthropic, il démontre que l'entreprise peut livrer un produit convaincant à un niveau de prix qui pourrait favoriser une adoption large — des revenus API récurrents à volume élevé provenant de milliers de clients professionnels. Gil Luria, responsable de la recherche technologique chez D.A. Davidson, a déclaré à CNBC que si Anthropic « semble avoir une longueur d'avance » dans les modèles d'IA de pointe, « une grande partie de leur utilisation actuelle concerne des essais et des expérimentations, ce qui pourrait ne pas être durable ».

Le véritable test pour Sonnet 5 est de savoir s'il convertit l'utilisation expérimentale en revenus de production. Les clients professionnels qui expérimentent avec des modèles coûteux de classe Opus pourraient constater que Sonnet 5 offre une qualité suffisante pour les charges de travail de production à un prix que les équipes financières peuvent approuver à grande échelle. Si cela fonctionne, cela pourrait accélérer le passage de l'expérimentation au déploiement dont toute entreprise d'IA a besoin pour justifier sa valorisation.

Cet article est fourni à titre d'information uniquement et ne constitue pas un conseil en investissement.