Une nouvelle référence en IA suggère que les modèles peuvent désormais gérer des tâches de 16 heures, franchissant un seuil critique pour le travail autonome et les applications de cybersécurité.
Un modèle d'IA de pointe d'Anthropic a démontré sa capacité à accomplir de manière autonome des tâches complexes d'ingénierie logicielle d'une durée allant jusqu'à 16 heures, un nouveau seuil de capacité qui redessine le paysage de la cybersécurité pilotée par l'IA. Le résultat du groupe d'évaluation de l'IA METR suggère une croissance super-exponentielle des capacités des modèles, une tendance qui, selon des fournisseurs de cybersécurité comme Palo Alto Networks Inc., a déjà un impact dramatique sur les opérations offensives et défensives.
« En utilisant [l'IA de pointe] pour assister l'analyse de vulnérabilité, en seulement 3 semaines, la profondeur et l'étendue du travail accompli équivalent à la charge de travail d'une équipe de test d'intrusion de haut niveau pendant une année entière », a écrit Palo Alto Networks dans un récent rapport sur l'impact de la technologie.
La nouvelle référence montre que le modèle Claude Mythos d'Anthropic peut atteindre un taux de réussite de 50 % sur des tâches nécessitant 16 heures de travail humain. Ce saut de capacité force un recalcul rapide des risques et de la productivité dans le monde du logiciel. Palo Alto Networks, qui a bénéficié d'un accès anticipé au modèle, a découvert qu'il pouvait compresser le processus de recherche et d'enchaînement de multiples vulnérabilités à faible risque en une chaîne d'attaque mortelle en seulement 25 minutes.
Ce développement accélère une course aux armements en IA entre les entreprises de cybersécurité, mettant la pression sur les acteurs historiques comme Palo Alto Networks (PANW), Fortinet (FTNT) et Zscaler Inc. Il intensifie également la concurrence entre les développeurs d'IA comme Anthropic et son rival OpenAI. Pour les investisseurs, la question clé est de savoir comment ce nouveau niveau d'autonomie de l'IA se traduit en produits d'entreprise fiables et en flux de revenus défendables.
Une nouvelle référence pour l'autonomie de l'IA
Le graphique de l'« horizon temporel » de METR mesure la durée des tâches de développement logiciel que les modèles de pointe peuvent accomplir. Les derniers résultats montrent Mythos gérant avec succès des tâches de 16 heures la moitié du temps, un saut significatif par rapport aux tâches de quelques minutes ou d'une heure que les modèles pouvaient gérer les années précédentes. L'évaluateur a noté que sa propre capacité à tester les modèles est mise à l'épreuve, car il dispose d'un nombre limité de tâches conçues pour durer plus de 16 heures, ce qui rend difficile la mesure de la véritable limite supérieure des capacités du modèle.
Ce progrès rapide et accéléré a été qualifié de croissance « super-exponentielle », chaque saut générationnel dans les capacités de l'IA semblant plus important que le précédent. La courbe de tendance suggère que les capacités prévues pour 2027 sont déjà atteintes, alimentant à la fois l'enthousiasme pour les gains de productivité et l'inquiétude quant aux implications sécuritaires d'agents IA de plus en plus puissants et autonomes.
Du laboratoire au feu réel : le « moment atomique » de la cybersécurité
Les conclusions des recherches de Palo Alto Networks fournissent un exemple concret et frappant des implications de la référence METR. La capacité d'automatiser une année de travail d'une équipe humaine de haut niveau en trois semaines représente un changement fondamental dans l'équilibre entre l'offensive et la défense cybernétique.
Cette capacité ne se limite pas à une seule entreprise. Les concurrents intègrent également une IA avancée. CrowdStrike Holdings (CRWD), récemment nommé leader dans le Magic Quadrant de Gartner 2026 pour l'intelligence sur les cybermenaces, étend sa coalition Project QuiltWorks pour appliquer l'IA de pointe à la gestion des risques. SentinelOne (S) a lancé son service Wayfinder, utilisant l'IA pour identifier et prioriser les chemins d'attaque exploitables, tandis qu'Okta Inc. (OKTA) développe de nouveaux cadres pour gérer les identités des agents IA eux-mêmes.
Réalité : un succès de 50 % est-il suffisant ?
Bien que le chiffre de 16 heures soit impressionnant, les critiques mettent en garde contre une extrapolation excessive de cette référence. Le facteur limitant clé est le taux de réussite de 50 %. Pour la recherche et le développement, où un expert humain peut examiner et rejeter les tentatives infructueuses, un taux de réussite de 50 % sur une tâche de 16 heures est transformateur. Cela double effectivement le rendement d'un ingénieur humain.
Cependant, pour un système entièrement autonome déployé dans un environnement de production, un taux d'échec de 50 % est inacceptable. « Le seuil de fiabilité pour une utilisation commerciale autonome se situe entre 95 % et 99,9 % », a noté le chercheur en IA Gary Marcus dans une analyse récente. Il soutient que le graphique METR, en se concentrant uniquement sur la ligne de succès de 50 %, ne montre pas à quelle vitesse l'IA comble l'écart vers une fiabilité de niveau entreprise. Le débat sur le temps qu'il faudra pour passer de 50 % à 99 % de succès est au cœur de la discussion sur l'intelligence artificielle générale (AGI) et son impact dans le monde réel.
Cet article est à titre informatif uniquement et ne constitue pas un conseil en investissement.