0G, en colaboración con China Mobile, entrenó un modelo de IA de 107 mil millones de parámetros utilizando infraestructura descentralizada, lo que marca la primera vez que se desarrolla un modelo por encima de los 100 mil millones de parámetros sin clústeres de centros de datos centralizados.
"El entrenamiento descentralizado a esta escala demuestra que el desarrollo de modelos grandes ya no requiere acceso exclusivo a granjas de GPU hiperescalables", dijo Michael Heinrich, cofundador de 0G Labs. "Los proveedores de telecomunicaciones que cuentan con capacidad informática infrautilizada ahora pueden participar en la cadena de suministro de IA".
El modelo se entrenó utilizando el marco de entrenamiento descentralizado de 0G, que incorpora el método DiLoCoX, una técnica que puede entrenar modelos hasta 357 veces más rápido que los enfoques descentralizados anteriores, incluso en redes con tan solo un gigabyte de ancho de banda, según una investigación de 0G Labs. Al distribuir la carga computacional a través de la infraestructura existente de China Mobile en lugar de un único centro de datos, el proyecto evitó el cuello de botella tradicional de los clústeres de GPU centralizados que han limitado el desarrollo de IA a un puñado de hiperescaladores.
Por qué el entrenamiento descentralizado es importante para la IA empresarial
Este logro aborda un problema estructural en la industria de la IA: entrenar modelos grandes ha requerido un enorme gasto de capital inicial en clústeres de GPU, lo que excluye a todas las empresas excepto a las más ricas. El entrenamiento descentralizado invierte ese modelo al tratar cualquier computadora conectada a la red como un nodo de entrenamiento potencial. Para operadores de telecomunicaciones como China Mobile, que gestionan una infraestructura informática vasta pero a menudo inactiva en toda su red, esto crea una nueva fuente de ingresos a partir de activos existentes.
El enfoque también reduce la dependencia de las GPU H100 y B200 de Nvidia, que han enfrentado restricciones de suministro y controles de exportación. Al agregar recursos informáticos heterogéneos a través de una red distribuida, el marco de 0G puede entrenar modelos utilizando una combinación de tipos de hardware en lugar de requerir clústeres de GPU uniformes. Esto podría aliviar la presión sobre el mercado de GPU para centros de datos, valorado en 200 mil millones de dólares, donde los plazos de entrega de los chips más recientes de Nvidia se han extendido a más de 12 meses.
Sin embargo, la preparación de los datos sigue siendo una barrera. Gartner estima que hasta el 60% de los proyectos de IA podrían abandonarse para 2026 debido a datos fragmentados o aislados, un problema que el entrenamiento descentralizado por sí solo no resuelve. Las empresas que busquen adoptar este enfoque primero deben unificar su infraestructura de datos antes de beneficiarse de la computación distribuida.
Implicaciones competitivas para la pila de infraestructura de IA
El hito de 0G y China Mobile desafía el modelo de entrenamiento centralizado defendido por Nvidia y los principales proveedores de la nube. Si el entrenamiento descentralizado gana adopción, podría cambiar los patrones de adquisición, alejándose de las ofertas de GPU como servicio de los hiperescaladores hacia un mercado más fragmentado donde los operadores de telecomunicaciones y los proveedores de borde moneticen la capacidad sobrante.
Bittensor y Render Network, dos proyectos que tokenizan recursos informáticos, podrían ver un aumento en la demanda a medida que las empresas exploren alternativas descentralizadas. La capacidad de entrenar modelos a través de infraestructura distribuida también se alinea con la creciente presión regulatoria en regiones como la Unión Europea y China, donde los requisitos de soberanía de datos dificultan el entrenamiento centralizado transfronterizo.
Para los inversores, este desarrollo introduce una nueva variable en la tesis de la infraestructura de IA. Los ingresos del centro de datos de Nvidia, que alcanzaron los 47.500 millones de dólares en su año fiscal más reciente, se han basado en la premisa de que el entrenamiento de modelos grandes requiere clústeres de GPU concentrados. Si los métodos descentralizados demuestran ser viables a escala, el mercado total direccionable para la computación de IA centralizada podría reducirse, beneficiando a los proveedores de infraestructura que puedan agregar recursos distribuidos.
Este artículo es solo para fines informativos y no constituye asesoramiento de inversión.