SenseTime libera el modelo SenseNova U1 de 2.000 millones de parámetros y elimina la arquitectura VAE

Con el lanzamiento de SenseNova U1, la firma china de IA SenseTime (00020.HK) está desafiando la arquitectura fundamental de la mayoría de los modelos modernos de generación de imágenes. La empresa liberó el código de una versión preliminar de su modelo de 2.000 millones de parámetros, construida sobre una arquitectura NEO-Unify que trabaja directamente sobre píxeles y descarta el autoencoder variacional (VAE) utilizado por sistemas que van desde Stable Diffusion hasta Flux de Google. Este enfoque podría reducir significativamente los costos de inferencia y mejorar la fidelidad de la imagen al evitar el paso de compresión del VAE.

"Nuestra intención es cobrar los futuros productos de IA basándonos en los resultados de resolución de problemas en lugar del consumo de tokens", dijo el presidente de SenseTime, Xu Li, en marzo de 2026, una filosofía que se alinea con el potencial de ahorro de costos de esta arquitectura más eficiente.

El modelo preliminar de 2.000 millones de parámetros alcanza una relación señal-ruido pico (PSNR) de 31,56 en la reconstrucción de imágenes, según la ficha del modelo, una puntuación que se acerca a los 32,65 PSNR del modelo Flux, mucho más grande, pero sin requerir un VAE independiente. El modelo fue desarrollado conjuntamente con el S-Lab de la Universidad Tecnológica de Nanyang y se publicó en Hugging Face el 26 de abril. También se ha confirmado un modelo base de 8.000 millones de parámetros.

Para los desarrolladores y usuarios empresariales, este lanzamiento señala un movimiento hacia pilas de IA más simples y eficientes. Eliminar el VAE elimina una fuente importante de artefactos visuales y un componente que requiere un ajuste significativo. Esto podría reducir la barrera de entrada para construir flujos de trabajo de generación de imágenes de alta calidad y reducir los costos operativos para los sistemas de producción, amenazando directamente los modelos de negocio basados en API de proveedores occidentales como Midjourney y OpenAI.

Un nuevo camino para los píxeles

El autoencoder variacional ha sido durante mucho tiempo una necesidad práctica, no fundamental. Comprime imágenes de alta resolución en un espacio latente más pequeño y computacionalmente manejable donde ocurre el proceso de difusión. Sin embargo, esta compresión tiene pérdidas, descartando detalles finos e introduciendo artefactos que los desarrolladores pasan mucho tiempo intentando corregir mediante ingeniería. La arquitectura NEO-Unify de SenseNova omite este paso por completo.

Al tratar los datos visuales y de lenguaje como profundamente correlacionados desde el principio, el modelo aprende a generar directamente sobre píxeles. Una estrategia de entrenamiento de dos etapas permite al modelo integrar el razonamiento del lenguaje de un modelo de lenguaje grande preentrenado mientras construye su percepción visual desde cero. Esta vía unificada para la comprensión y la generación evita las compensaciones de rendimiento que a menudo han plagado el entrenamiento de modelos multimodales, donde las ganancias en un dominio pueden degradar la capacidad en otro.

El ascenso acelerado de la IA en China

SenseNova U1 es el último de una serie de modelos competitivos de pesos abiertos que surgen de China, uniéndose a lanzamientos notables de empresas como DeepSeek, Qwen de Alibaba y el proyecto InternVL. Este patrón de experimentación arquitectónica rápida combinada con lanzamientos de código abierto está construyendo un ecosistema de desarrolladores robusto que presenta una alternativa significativa a los modelos cerrados y centrados en EE. UU. de OpenAI, Google y Anthropic, o incluso a los modelos de pesos abiertos de firmas occidentales como Meta.

Para los compradores corporativos, particularmente en mercados donde la soberanía de los datos y la infraestructura local son clave, estos modelos se están volviendo cada vez más viables. SenseTime ya ha estado profundizando su integración con los proveedores de chips nacionales, un movimiento que protege su cadena de desarrollo de los controles de exportación de EE. UU. que afectan a las cadenas de suministro de GPU de Nvidia. La combinación de innovación arquitectónica, estrategia de código abierto y resiliencia de la cadena de suministro fortalece la posición del sector de IA de China en un mercado global fragmentado.

Este artículo es solo para fines informativos y no constituye asesoramiento de inversión.