OpenAI y 5 socios lanzan MRC para impulsar las fábricas de IA

OpenAI, en asociación con los gigantes tecnológicos Nvidia, Microsoft, AMD, Intel y Broadcom, ha presentado un nuevo protocolo de red diseñado para evitar costosos retrasos en el entrenamiento de modelos avanzados de inteligencia artificial. La tecnología, denominada Multipath Reliable Connection (MRC), ya se está desplegando en algunas de las supercomputadoras de IA más grandes del mundo para mover conjuntos de datos masivos entre GPU de manera más eficiente y confiable.

"Nuestro objetivo no era solo construir una red rápida, sino también construir una que ofrezca un rendimiento muy predecible, incluso ante fallos, para que las tareas de entrenamiento sigan avanzando", afirmó OpenAI en una publicación de blog anunciando la iniciativa.

El MRC es un protocolo de transporte de acceso directo a memoria remota (RDMA) que cambia fundamentalmente la forma en que los datos viajan en una fábrica de IA. En lugar de depender de una única ruta de red, que puede crear un cuello de botella o detener el entrenamiento si falla, el MRC distribuye el tráfico a través de cientos de rutas diferentes simultáneamente. El protocolo está integrado en las últimas interfaces de red de 800 Gb/s y ya se utiliza en las supercomputadoras Nvidia GB200 más grandes de OpenAI, además de estar siendo desplegado por Microsoft en sus centros de datos de Azure.

Esta medida aborda una vulnerabilidad crítica en la economía de la IA. Al entrenar un modelo de frontera en decenas de miles de GPU, incluso un estancamiento de la red de un milisegundo puede dejar inactivos millones de dólares en hardware de computación. Al proporcionar múltiples rutas redundantes y la inteligencia para sortear la congestión, el MRC está diseñado para maximizar la utilización de estos costosos sistemas de IA, impactando directamente en el retorno de la inversión para las empresas que gastan miles de millones de dólares en infraestructura de IA.

Resolviendo el cuello de botella de la IA a escala Gigascale

El entrenamiento de grandes modelos de IA implica un intercambio constante y de alto volumen de datos entre miles de GPU que deben permanecer sincronizadas. En las redes tradicionales, si un enlace en la ruta se congestiona o un conmutador falla, todo el trabajo puede pausarse mientras el sistema redirige el tráfico. Este retraso, conocido como un evento de "latencia de cola" (tail latency), es una fuente importante de ineficiencia.

El MRC aborda este problema de varias maneras. El protocolo utiliza señales en tiempo real del tejido de red para detectar y alejar el tráfico de los enlaces sobrecargados. Cuando se pierden datos, se pueden retransmitir de forma rápida y precisa, minimizando el impacto de los fallos. Según Nvidia, su plataforma Spectrum-X, que ejecuta MRC, puede detectar un fallo en la ruta y redirigir el tráfico por hardware en microsegundos. Esto permite que un "inquilino inteligente" como OpenAI tenga un mayor control sobre el enrutamiento y el comportamiento de la red, incluso cuando se ejecuta en la infraestructura de un proveedor de la nube como Microsoft Azure.

Un estándar abierto con una ventaja competitiva

En un movimiento significativo para fomentar una adopción amplia, la especificación MRC se ha hecho pública a través del Open Compute Project (OCP), un organismo de la industria que promueve diseños de hardware de código abierto. La participación de AMD, Intel y Broadcom junto a Nvidia y Microsoft señala un esfuerzo de colaboración para construir un estándar común para redes de IA de alto rendimiento.

Sin embargo, la especificación abierta viene con una dinámica competitiva. Si bien cualquiera puede implementar el protocolo, Nvidia apuesta a que su ejecución específica de hardware en sus conmutadores Spectrum-X y SuperNIC ofrecerá un rendimiento superior. Esta estrategia de "estándares abiertos, implementación diferenciada" ha sido un sello distintivo del éxito de Nvidia. Gilad Shainer, vicepresidente sénior de Nvidia, señaló que espera que coexistan una variedad de protocolos Ethernet, adaptados a las diferentes necesidades de los clientes, en lugar de un único estándar donde el ganador se lo lleva todo, como el propuesto por el Ultra Ethernet Consortium (UEC).

Para los inversores, este anuncio refuerza las posiciones competitivas de las empresas involucradas. Consolida el papel de Nvidia como proveedor de sistemas de IA de extremo a extremo, no solo de chips. Para Microsoft, mejora el rendimiento y la resistencia de su nube Azure, un factor clave para atraer y retener a grandes clientes de IA como OpenAI. La participación de AMD e Intel garantiza que sigan siendo parte de la conversación, evitando un bloqueo completo por parte de un solo proveedor y proporcionando a la industria múltiples caminos a seguir.

Este artículo es solo para fines informativos y no constituye asesoramiento de inversión.