La nueva IA de Nvidia escribe código para robots, superando a expertos humanos en 4 de 7 tareas

Nvidia está extendiendo su dominio desde el entrenamiento de IA hasta el control robótico con el lanzamiento de CaP-X, un framework de código abierto que permite a los robots generar su propio software de control en tiempo real. El agente principal del framework, CaP-Agent0, ya ha demostrado un rendimiento en tareas complejas que rivaliza o supera a los programas escritos a mano por expertos humanos, lo que señala un cambio importante en la forma en que los sistemas autónomos aprenden y se adaptan.

"¡Sobre las perspectivas de 'Code as Policy' (CaP) para la robótica, estoy muy emocionado!", dijo Ken Goldberg, profesor de la UC Berkeley, en un comentario sobre el lanzamiento.

En las pruebas de rendimiento utilizando el framework CaP-Bench, el CaP-Agent0, que no requiere entrenamiento previo, logró una tasa de éxito que igualó o superó a los programas escritos por expertos humanos en cuatro de las siete tareas de manipulación principales. Este rendimiento se logró utilizando solo los comandos atómicos más básicos, un escenario en el que incluso modelos grandes avanzados como o1 de OpenAI y Gemini 3 Pro de Google fallaron sin el enfoque estructurado del framework. El modelo CaP-X también demostró una robustez superior en tareas de largo horizonte en comparación con los modelos de extremo a extremo (end-to-end) como OpenVLA.

Este desarrollo consolida el enfoque de "Code as Policy", donde los modelos de IA generan código explícito en lugar de salidas de redes neuronales de tipo "caja negra". Para Nvidia, esto extiende su ventaja competitiva desde la simple venta de las GPU que entrenan la IA hasta proporcionar los frameworks de software centrales que ejecutan los robots impulsados por IA. Este movimiento podría capturar un valor significativo en el creciente mercado de la robótica y la automatización, aumentando la presión sobre los competidores que intentan construir ecosistemas de IA integrales.

De la Caja Negra de VLA a Code as Policy

El lanzamiento de CaP-X aborda las limitaciones clave de los dos enfoques dominantes en el control robótico. Los métodos tradicionales requieren que los ingenieros escriban meticulosamente el código para cada acción, un proceso que es preciso pero rígido y no logra generalizarse a nuevos objetos o entornos. Más recientemente, los modelos de Visión-Lenguaje-Acción (VLA) de extremo a extremo, inspirados en el éxito de los modelos de lenguaje grandes, han mostrado capacidades impresionantes. Sin embargo, estos modelos VLA funcionan como "cajas negras", lo que los hace difíciles de depurar y a menudo requieren nuevos conjuntos de datos masivos para adaptarse a nuevas tareas.

El paradigma "Code as Policy" (CaP), propuesto por primera vez por Google en 2022, ofrece una tercera vía. En lugar de que un modelo grande emita una acción abstracta, genera código Python legible que llama directamente a las API de control de un robot. CaP-X de Nvidia es una evolución significativa de esta idea. Crea un "arnés" completo que permite a un agente de programación no solo escribir código, sino también recibir retroalimentación del entorno, depurar sus propios errores y guardar rutinas exitosas en una biblioteca de habilidades reutilizable. En este framework, incluso un modelo VLA potente puede ser tratado como una herramienta más, llamada por una sola línea de código para manejar una tarea de manipulación compleja específica en la que destaca.

El Framework CaP-X: Un Vistazo más Cercano

CaP-X no es un modelo único, sino un conjunto de herramientas diseñadas para trabajar juntas. El núcleo es CaP-Gym, un entorno interactivo que conecta el "cerebro" de la IA con un robot simulado o físico, proporcionando retroalimentación en tiempo real sobre cada línea de código generada. Incluye herramientas de percepción integradas que traducen imágenes en bruto en conceptos semánticos como "una manzana" o "una taza". En el lado del control, abstrae los movimientos de las articulaciones de bajo nivel, lo que permite a la IA programar en un espacio cartesiano más intuitivo.

Para medir el progreso, el equipo desarrolló CaP-Bench, un punto de referencia que prueba específicamente la capacidad de una IA para escribir código funcional para robots, recuperarse de errores e incorporar retroalimentación visual. Fue en este benchmark donde CaP-Agent0, el agente insignia del framework, demostró su superioridad. El agente utiliza un bucle de razonamiento de varias rondas y puede generar múltiples soluciones de código potenciales en paralelo para encontrar una que funcione. Cuando una solución tiene éxito, se añade automáticamente a una biblioteca de habilidades persistente, lo que permite al agente aprender y mejorar con el tiempo. La investigación también introduce CaP-RL, que utiliza el aprendizaje por refuerzo para ajustar el propio modelo de programación, mejorando su intuición de codificación basada en la retroalimentación ambiental.

Si bien CaP-X muestra una fuerza notable en lógica y planificación, los investigadores señalan que puede ser menos eficaz en tareas que requieren retroalimentación visual de alta frecuencia, como verter agua. La dirección futura más prometedora es un enfoque híbrido, donde una IA que genera código maneja la estrategia de alto nivel y la recuperación de errores, mientras delega las tareas motoras finas a un modelo VLA especializado.

Este artículo es solo para fines informativos y no constituye asesoramiento de inversión.