Un nuevo punto de referencia de IA sugiere que los modelos ahora pueden manejar tareas que toman 16 horas, cruzando un umbral crítico para el trabajo autónomo y las aplicaciones de ciberseguridad.
Un modelo de IA de vanguardia de Anthropic ha demostrado la capacidad de completar de forma autónoma tareas complejas de ingeniería de software de hasta 16 horas de duración, un nuevo umbral de capacidad que está remodelando el panorama de la ciberseguridad impulsada por la IA. El resultado del grupo de evaluación de IA METR sugiere un crecimiento súper-exponencial en las capacidades de los modelos, una tendencia que proveedores de ciberseguridad como Palo Alto Networks Inc. informan que ya está teniendo un impacto dramático tanto en las operaciones ofensivas como en las defensivas.
"Usando [IA de vanguardia] para asistir en el análisis de vulnerabilidades, en solo 3 semanas, la profundidad y amplitud del trabajo completado equivalen a la carga de trabajo de todo un equipo de pruebas de penetración de alto nivel durante un año completo", escribió Palo Alto Networks en un informe reciente sobre el impacto de la tecnología.
El nuevo punto de referencia muestra que el modelo Claude Mythos de Anthropic puede lograr una tasa de éxito del 50% en tareas que requieren 16 horas de trabajo humano. Este salto en la capacidad está obligando a un rápido recalculo del riesgo y la productividad en el mundo del software. Palo Alto Networks, que obtuvo acceso temprano al modelo, descubrió que podía comprimir el proceso de encontrar y encadenar múltiples vulnerabilidades de bajo riesgo en una cadena de ataque mortal a solo 25 minutos.
Este desarrollo acelera una carrera armamentista de IA entre las empresas de ciberseguridad, presionando a los titulares como Palo Alto Networks (PANW), Fortinet (FTNT) y Zscaler Inc. También intensifica la competencia de plataformas entre desarrolladores de IA como Anthropic y su rival OpenAI. Para los inversores, la pregunta clave es cómo este nuevo nivel de autonomía de la IA se traduce en productos empresariales confiables y flujos de ingresos defendibles.
Un nuevo punto de referencia para la autonomía de la IA
El gráfico de "horizonte temporal" de METR mide la duración de las tareas de desarrollo de software que los modelos de vanguardia pueden completar. Los resultados más recientes muestran a Mythos manejando con éxito tareas de 16 horas la mitad del tiempo, un salto significativo desde las tareas de minutos o una sola hora que los modelos podían manejar en años anteriores. El evaluador señaló que su propia capacidad para probar modelos está siendo desafiada, ya que tiene un número limitado de tareas diseñadas para tomar más de 16 horas, lo que dificulta medir el verdadero límite superior de la capacidad del modelo.
Este progreso rápido y acelerado ha sido calificado como crecimiento "súper-exponencial", donde cada salto generacional en la capacidad de la IA parece mayor que el anterior. La línea de tendencia sugiere que las capacidades predichas para 2027 ya se están cumpliendo, alimentando tanto el entusiasmo por las ganancias de productividad como la ansiedad por las implicaciones de seguridad de los agentes de IA cada vez más potentes y autónomos.
Del laboratorio al fuego real: el 'momento atómico' de la ciberseguridad
Los hallazgos de la investigación de Palo Alto Networks proporcionan un ejemplo crudo y real de las implicaciones del punto de referencia METR. La capacidad de automatizar un año de trabajo de un equipo humano de alto nivel en tres semanas representa un cambio fundamental en el equilibrio entre la ofensiva y la defensa cibernética.
Esta capacidad no se limita a una sola empresa. Los competidores también están integrando IA avanzada. CrowdStrike Holdings (CRWD), recientemente nombrada líder en el Cuadrante Mágico de Gartner 2026 para Inteligencia de Ciberamenazas, está expandiendo su coalición Proyecto QuiltWorks para aplicar IA de vanguardia a la gestión de riesgos. SentinelOne (S) ha lanzado su servicio Wayfinder, utilizando IA para identificar y priorizar rutas de ataque explotables, mientras que Okta Inc. (OKTA) está desarrollando nuevos marcos para gestionar las identidades de los propios agentes de IA.
Control de realidad: ¿Es suficiente un éxito del 50%?
Si bien la cifra de 16 horas es impresionante, los críticos advierten contra la sobreextrapolación del punto de referencia. El calificador clave es la tasa de éxito del 50%. Para la investigación y el desarrollo, donde un experto humano puede revisar y descartar intentos fallidos, una tasa de éxito del 50% en una tarea de 16 horas es transformadora. Duplica efectivamente la producción de un ingeniero humano.
Sin embargo, para un sistema totalmente autónomo desplegado en un entorno de producción, una tasa de falla del 50% es inaceptable. "El umbral de confiabilidad para el uso comercial autónomo está entre el 95% y el 99,9%", señaló el investigador de IA Gary Marcus en un análisis reciente. Argumenta que el gráfico de METR, al centrarse solo en la línea de éxito del 50%, no muestra qué tan rápido la IA está cerrando la brecha hacia la confiabilidad de grado empresarial. El debate sobre cuánto tiempo tomará cerrar la brecha del 50% al 99% de éxito es central en la discusión sobre la inteligencia artificial general (AGI) y su impacto en el mundo real.
Este artículo es solo para fines informativos y no constituye asesoramiento de inversión.