Anthropic débloque Fable 5 après 19 jours, mais des garde-fous trop zélés irritent les développeurs

Le modèle d'IA le plus performant d'Anthropic est de retour en ligne, mais un système de sécurité déployé à la hâte signale des demandes de code inoffensives et force les utilisateurs à basculer vers un modèle plus faible.

Anthropic a rétabli l'accès à Fable 5 le 1er juillet après une suspension de 19 jours, mais un nouveau classificateur de sécurité déclenche des faux positifs sur des tâches de codage courantes, forçant les développeurs à utiliser le moins performant Opus 4.8. Le modèle, le premier système de classe Mythos de l'entreprise accessible au public, avait été mis hors ligne en juin après que l'administration Trump a imposé des contrôles à l'exportation à la suite de la découverte par Amazon d'une technique d'invite contournant ses garde-fous.

« Le nouveau classificateur présente un taux de faux positifs plus élevé que souhaité sur les tâches courantes de programmation et de débogage », a déclaré Anthropic dans un billet de blog annonçant le redéploiement. La mesure de sécurité, ajoutée pour se conformer aux exigences du département du Commerce, intercepte les requêtes jugées risquées et les redirige vers Opus 4.8 sans en avertir l'utilisateur.

Jusqu'au 7 juillet, les abonnés éligibles des offres Pro, Max, Team et certains abonnés Enterprise peuvent allouer jusqu'à 50 % de leur quota d'utilisation hebdomadaire à Fable 5 avant d'épuiser des crédits supplémentaires. Le modèle consomme les crédits plus rapidement qu'Opus 4.8, ce qui accentue la frustration des utilisateurs. Après le 7 juillet, toute utilisation de Fable 5 nécessitera des crédits.

Cette controverse souligne la tension entre la réglementation de la sécurité de l'IA et la convivialité des produits — une dynamique qui pourrait ralentir l'adoption des modèles avancés par les entreprises et pousser les développeurs vers des alternatives open-weight de DeepSeek et d'autres fournisseurs qui fonctionnent sans garde-fous centralisés.

Un classificateur qui ne distingue pas les arbres des drones

Un doctorant en sciences de la Terre sur Reddit a décrit avoir tenté d'utiliser Fable 5 pour ses recherches sur la façon dont les arbres réduisent la température ambiante. Le classificateur a signalé la requête et l'a basculé vers Opus 4.8. Lorsqu'il a testé le système en demandant du code pour contrôler un essaim de drones à l'aide du SDK de DJI, Fable 5 a fourni une solution complète sans interruption.

« Ce n'est pas un système de sécurité — c'est une barrière aléatoire », a écrit le chercheur.

Anthropic a reconnu le problème dans son billet de redéploiement, affirmant que le classificateur bloque la technique d'invite spécifique identifiée par les chercheurs d'Amazon dans plus de 99 % des cas, mais au prix de fréquentes fausses alertes sur des requêtes bénignes. L'entreprise n'a pas divulgué combien de sessions utilisateur ont été affectées.

Le problème des faux positifs est particulièrement préjudiciable car la force principale de Fable 5 réside dans les tâches de codage complexes et multi-étapes. Les développeurs ayant testé le modèle rapportent que lorsqu'il n'est pas interrompu par le classificateur, il surpasse tous les modèles disponibles publiquement sur les tâches d'agents à long horizon, obtenant un score supérieur à 80 % sur le benchmark SWE-Bench Pro. Un développeur a utilisé Fable 5 pour reconstruire la skyline de New York dans Blender en 20 minutes en extrayant des données réelles de bâtiments à partir de sources publiques. Un autre a créé un jeu complet à partir de zéro en utilisant quatre invites pour un coût de 173 $ en tokens.

Anthropic pousse pour des normes industrielles de sécurité

Pour éviter de futurs conflits réglementaires, Anthropic travaille avec Amazon, Microsoft et Google pour créer un cadre standardisé d'évaluation de la sévérité des jailbreaks de l'IA. Le système proposé note les exploits selon quatre dimensions : gain de capacité, étendue du gain, difficulté d'armement et découvrabilité. Seuls les exploits qui atteignent le maximum dans les quatre catégories — par exemple, une technique qui pourrait perturber des infrastructures critiques — déclencheraient le plus haut niveau d'alerte nécessitant une atténuation immédiate.

L'entreprise a également accepté de donner aux agences gouvernementales un accès préalable aux futurs modèles pour des tests de sécurité, de partager rapidement les informations sur les vulnérabilités et de financer un programme de bug bounty sur HackerOne pour Fable 5. Le secrétaire au Commerce, Howard Lutnick, a confirmé la levée des restrictions dans une lettre, notant qu'Anthropic avait « accepté de détecter et de traiter de manière proactive les risques de sécurité posés par les modèles ».

Cet épisode pourrait profiter aux fournisseurs de modèles open-weight comme DeepSeek, dont le modèle V4-Pro fonctionne sans garde-fous centralisés et a démontré des performances compétitives sur les benchmarks de codage. La crédibilité d'Anthropic auprès des développeurs — une composante clé pour l'adoption de l'IA — a été entamée, et la capacité de l'entreprise à monétiser les capacités de Fable 5 dépend de la résolution du problème des faux positifs du classificateur. Anthropic n'a pas divulgué le prix par token de Fable 5 mais a indiqué que les crédits d'utilisation s'appliqueront après le 7 juillet.

Cet article est fourni à titre d'information uniquement et ne constitue pas un conseil en investissement.