El 95 % de las cargas de trabajo empresariales de IA aún se ejecutan en modelos frontera premium — incluso para tareas simples como resumir texto y clasificar correos electrónicos — mientras los directores financieros comienzan a intercambiar futuras cabezas de equipo por tokens más baratos en un cambio estructural que está reconfigurando los presupuestos tecnológicos corporativos.
"La cuestión del coste por token ha pasado del equipo de ingeniería a la sala del consejo", afirmó Alex Nguyen, analista de IA empresarial en Edgen. "Los CFO se están dando cuenta de que pueden reemplazar a tres analistas júnior con un agente de IA que funcione con un modelo más barato, y las cuentas cuadran con un volumen 10 veces mayor".
La aritmética es cruda. El modelo V4 Pro de DeepSeek, que obtiene un 80,6 % en el benchmark de codificación SWE-bench Verified y un 87,5 en el índice avanzado de razonamiento MMLU-Pro, cuesta 0,435 dólares por millón de tokens de entrada y 0,87 dólares por millón de tokens de salida — 7 veces más barato en entradas y 17 veces más barato en salidas que el Claude Sonnet de Anthropic o el GPT-5.5-Med de OpenAI. Su variante ligera V4 Flash reduce en 10 a 25 veces el coste frente a alternativas de nivel básico como Claude Haiku. Cuando se aloja de forma nativa en China, el precio de lectura en caché de DeepSeek es 87 veces más barato que las alternativas en la nube occidentales, según los precios publicados por la compañía.
La brecha de costes está forzando un ajuste de cuentas. Uber quemó todo su presupuesto de 2026 para Claude Code y Cursor en los primeros cuatro meses del año, y su director de operaciones dijo al personal que el gasto era "cada vez más difícil de justificar" sin mejores productos que mostrar. Brian Chesky, de Airbnb, señaló que la empresa evita depender en gran medida de los últimos modelos de OpenAI en producción, optando por alternativas más rápidas y baratas como Qwen de Alibaba. El director de tecnología de Pinterest confirmó que la empresa logró una calidad similar a la de los modelos frontera con una reducción del 90 % en costes mediante el entrenamiento posterior del modelo abierto Qwen de Alibaba con su "gráfico de gustos" propietario.
La crisis del coste de los tokens está acelerando una bifurcación permanente del mercado de IA empresarial. La encuesta de VentureBeat del primer trimestre de 2026 a usuarios empresariales en organizaciones con más de 100 empleados reveló que el "coste por token o modelo de licencia" saltó del 25,4 % al 36,7 % como criterio de selección principal entre enero y marzo, solo por detrás del rendimiento bruto. Los entornos de producción empresarial ahora implementan una mediana de 14 modelos diferentes simultáneamente para encaminar cargas de trabajo según el precio y evitar la dependencia de un solo proveedor, según un análisis de infraestructura de Andreessen Horowitz.
En OpenRouter, un proxy de desarrollo líder para el uso de modelos, el V4 Flash de DeepSeek ocupó la primera posición la semana pasada con un aumento del 48 % en el consumo de tokens. Los tres principales modelos de DeepSeek procesaron casi 6 billones de tokens en la plataforma, mientras que el premium GPT-5.5 de OpenAI cayó al puesto n.º 15 con 470 mil millones de tokens. OpenRouter recaudó recientemente una ronda Serie B de 113 millones de dólares respaldada por ServiceNow Ventures, Snowflake Ventures, Databricks Ventures, NVentures de Nvidia y CapitalG de Google, una señal de que los proveedores de infraestructura empresarial apuestan por el encaminamiento multimodelo como arquitectura predeterminada.
La presión estructural sobre los márgenes no afectará por igual a todos los laboratorios occidentales. Anthropic sigue protegida por productos de software premium como Claude Code, donde los equipos de ingeniería pagan por una precisión determinista en el desarrollo central de producción. OpenAI se enfrenta a una mayor exposición: una parte más grande de sus ingresos empresariales depende de flujos de tokens API de uso general y alto volumen, precisamente la capa de productos básicos que los modelos de peso abierto están mercantilizando. La arquitectura de DeepSeek, que comprime la caché de clave-valor de su modelo de 1,6 billones de parámetros a 5,48 gigabytes de memoria de alto ancho de banda para un bucle de contexto de 1 millón de tokens — frente a los 89 gigabytes de las arquitecturas occidentales comparables — hace que la ventaja de coste sea estructural, no promocional.
Para los compradores de tecnología empresarial, el cálculo está pasando de "qué modelo es el mejor" a "qué modelo es el mejor para esta tarea específica a este precio". Las empresas que no optimicen su encaminamiento de inferencia corren el riesgo de sufrir una compresión de márgenes a medida que el consumo de tokens de IA crece exponencialmente con el despliegue de agentes autónomos de múltiples pasos. Aquellas que adopten arquitecturas de modelos escalonados —reservando los modelos frontera premium para razonamientos de misión crítica mientras encaminan tareas de fondo de alto volumen a alternativas de peso abierto más baratas— podrán capturar los ahorros que los CFO están exigiendo ahora.
Este artículo es solo para fines informativos y no constituye asesoramiento de inversión.