ByteDance rompió la barrera de los 30 segundos en la generación de video con IA e igualó a Claude Opus 4.7 en codificación a una quinta parte del precio, presentando cinco nuevos modelos en su conferencia anual FORCE el 23 de junio.
"Seedance 2.5 es el primer modelo de generación de video en producir clips nativos de 30 segundos a partir de una sola instrucción, con cambios de escena y variaciones de ritmo integrados", afirmó Tan Dai, presidente de Volcano Engine, la unidad de negocio en la nube de ByteDance, durante la conferencia en Pekín. "Puede aceptar hasta 50 entradas de referencia multimodales simultáneamente —imágenes, audio, modelos 3D— y admite edición localizada después de la generación sin degradar la coherencia visual".
La pieza central del lanzamiento, Seedance 2.5, genera clips de video individuales de hasta 30 segundos en resolución 4K nativa con profundidad de color de 10 bits, un salto respecto al techo de 15 segundos que ha limitado a la mayoría de las herramientas de video con IA. El modelo también introduce la previsualización de modelos 3D en blanco —una función inspirada en la solicitud de un director de cine durante la colaboración con ByteDance, según el CEO Liang Rubo. Los usuarios pueden editar elementos individuales como fondos o productos después de la generación sin necesidad de regenerar todo el clip, una capacidad que ByteDance demostró al intercambiar tonos de lápiz labial en un comercial sin alterar la escena. Se espera que el modelo se lance a principios de julio.
Lo que está en juego va mucho más allá del video. Doubao 2.1 Pro, el modelo de lenguaje insignia de ByteDance, obtuvo 59.8 en el punto de referencia científico SciCode, superando tanto a Claude Opus 4.7 como a GPT-5.5, y alcanzó un 47 en la generación de código a nivel de repositorio NL2Repo —por delante de GPT-5.5 y Gemini 3.1. Su precio de 6 yuanes ($0.83) por millón de tokens de entrada y 30 yuanes ($4.14) por millón de tokens de salida representa una reducción de costos de aproximadamente el 80 % frente a la serie Claude Opus de Anthropic, según Volcano Engine. Una variante turbo, con un precio equivalente a la mitad del nivel Pro, está dirigida a cargas de trabajo empresariales de alta frecuencia.
La ofensiva integral de IA
ByteDance no se detuvo en el texto y el video. La compañía también presentó en vista previa Seedream 5.0 Pro para generación de imágenes, que incorpora edición interactiva —los usuarios pueden dibujar flechas o rodear regiones para modificar elementos específicos— y separación multicapa que divide recursivamente las capas de la imagen mientras rellena automáticamente los fondos. El modelo admite diseños de texto de alta densidad en más de 10 idiomas, incluidos inglés, español, árabe y japonés, con tipografía adaptada culturalmente.
En el frente del audio, el Doubao Audio Generation Model 1.0 genera bandas sonoras cinematográficas completas a partir de texto, infiriendo automáticamente las características vocales de los personajes, la interpretación emocional, los acentos dialectales, la ambientación de fondo y los efectos de sonido en una sola pasada. Una demostración mostró una secuencia de artes marciales de casi un minuto con voces de personajes coherentes, ambiente de lluvia y sonidos de choque de armas, todo generado por el modelo sin capas manuales.
Seedance 2.0, el modelo predecesor lanzado en febrero, recibió una actualización a 4K nativo como parte del anuncio.
Trayectoria comercial y adopción empresarial
El negocio en la nube de Volcano Engine ahora posee el 49.5 % del mercado de nube pública de China, señaló Tan. Las llamadas diarias de tokens en la familia de modelos Doubao de ByteDance han alcanzado los 180 billones, un incremento de 1,500 veces en comparación con hace dos años y un aumento de diez veces solo en el último año. El número de clientes empresariales que gastan más de 1 billón de tokens al año se ha duplicado hasta los 200 desde diciembre.
ByteDance también lanzó una plataforma de comercialización de derechos de autor con IA, con el cineasta de Hong Kong Stephen Chou como su primer socio. Los usuarios pueden remezclar clips de los clásicos de Chou, incluidos "The God of Cookery" y "CJ7", utilizando plantillas oficiales en Douyin, Jimeng y Jianying, generando más de 10,000 creaciones en el primer día, según Tan.
La adopción empresarial abarca múltiples industrias. Tesla ha integrado Doubao para controles de vehículos por voz en toda su gama, utilizando el modelo de voz en tiempo real de ByteDance. El nuevo CLA eléctrico de Mercedes-Benz también incorpora Doubao para interacción en lenguaje natural y reconocimiento emocional. En servicios financieros, CICC creó un agente asesor de inversiones digital en la plataforma HiAgent de ByteDance, sintetizando investigaciones de más de 300 analistas. China Mobile lanzó conjuntamente un servicio de modelo confidencial para clientes gubernamentales y financieros utilizando infraestructura informática nacional.
Lo que significa para los inversores
El lanzamiento integral de IA de ByteDance —que abarca texto, video, imagen y audio— señala una guerra de precios y capacidades que presiona tanto a los líderes occidentales de IA como a los rivales chinos. La paridad en codificación de Doubao 2.1 Pro con Claude Opus 4.7 a un costo 80 % menor comprime los márgenes de los proveedores de modelos premium, mientras que la capacidad de generación de 30 segundos de Seedance 2.5 supera a Sora de OpenAI y otros competidores que aún se limitan a 15 o 20 segundos. Su participación del 49.5 % en el mercado de nube pública y los 180 billones de llamadas de tokens diarias sugieren que la adopción empresarial se está acelerando más rápido de lo que la mayoría de los analistas proyectaban. Para los inversores que siguen el desarrollo de la infraestructura de IA, la capacidad de ByteDance para agrupar modelos en múltiples modalidades a precios agresivos —combinada con su distribución a través de Douyin, Jimeng y Jianying— crea un competidor verticalmente integrado que rivaliza en escala con cualquier plataforma de IA occidental.
Este artículo es solo con fines informativos y no constituye asesoramiento de inversión.