La división de IA de Tether publicó como código abierto TurboQuant de Google, comprimiendo 5 veces la memoria de trabajo de la IA para dispositivos locales.
La división de IA de Tether publicó como código abierto TurboQuant de Google, comprimiendo 5 veces la memoria de trabajo de la IA para dispositivos locales.

La división de IA de Tether publicó como código abierto TurboQuant de Google, comprimiendo 5 veces la memoria de trabajo de la IA para dispositivos locales.
Un cuello de botella de memoria que obliga a las cargas de trabajo de IA a ingresar a centros de datos se está disolviendo. El Grupo de Investigación de IA de Tether publicó como código abierto TurboQuant el lunes, una implementación de producción del algoritmo de compresión de caché KV de Google que reduce el consumo de memoria hasta 5 veces mientras preserva la calidad de salida.
"Si la IA de contexto largo solo funciona dentro de los centros de datos más grandes, entonces la IA será moldeada por quien posea más hardware", dijo Paolo Ardoino, director ejecutivo de Tether. "TurboQuant cambia lo que la IA local puede hacer al hacer que la memoria sea menos una barrera".
La caché KV — la memoria de trabajo que los modelos transformer utilizan para rastrear el contexto durante una sesión — se expande a medida que las conversaciones se alargan. Con aproximadamente 262,000 tokens, equivalentes a varias horas de conversación o unos cientos de páginas de texto, la caché KV para un modelo de 4 mil millones de parámetros consume alrededor de 8 gigabytes de memoria. Cuatro sesiones simultáneas elevan eso a 32 GB antes de contabilizar el modelo en sí. TurboQuant comprime esa caché hasta una quinta parte de su tamaño original, haciendo viable la IA de contexto largo en GPU de consumo, teléfonos y dispositivos periféricos.
El lanzamiento posiciona a QVAC Fabric de Tether — su motor de IA local de código abierto derivado de llama.cpp — como un contendiente serio en la carrera por descentralizar la inferencia de IA. Si la compresión de 5x de TurboQuant se mantiene en distintas arquitecturas de modelos, podría redirigir una parte significativa de las cargas de trabajo de inferencia lejos de proveedores en la nube como Amazon Web Services, Microsoft Azure y Google Cloud, que juntos gastaron un estimado de $230 mil millones en infraestructura de IA en 2025.
El algoritmo, publicado originalmente por Google Research el 24 de marzo de 2026, aplica cuantización específicamente a la caché KV — comprimiendo la precisión numérica de punto flotante de 16 o 32 bits a representaciones de 4 o 2 bits. A diferencia de muchas técnicas de compresión, TurboQuant no requiere reentrenamiento o ajuste fino del modelo. Los desarrolladores pueden aplicarlo a modelos existentes a través del SDK QVAC 0.12.0 de Tether, que incluye un pipeline completo de cuantización, adaptadores de frameworks para motores de inferencia comunes y perfiles de despliegue ajustados por carga de trabajo.
Para desarrolladores y startups, las implicaciones son prácticas más que teóricas. En lugar de diseñar productos de IA en torno a ventanas de contexto cortas y despliegue exclusivo en la nube, los equipos pueden soportar sesiones más largas en hardware de consumo. Un asistente de codificación puede retener una base de código completa. Una herramienta de revisión de documentos legales puede procesar contratos de cientos de páginas en una laptop. Una aplicación de tutoría puede mantener el contexto durante una sesión de estudio completa — todo sin enrutar datos a través de un centro de datos remoto.
La implementación de Tether se basa en trabajos de compresión anteriores, incluyendo PolarQuant y Quantized Johnson-Lindenstrauss, apilando múltiples técnicas para abordar diferentes partes del problema de eficiencia. La compañía ha estado expandiendo su presencia en IA más allá del negocio de stablecoins que la convirtió en un nombre conocido en cripto, con lanzamientos recientes que incluyen QVAC Workbench para IA privada en el dispositivo, QVAC Health para seguimiento local de bienestar y QVAC MedPsy, una familia de modelos de IA médica diseñada para funcionar en teléfonos y wearables.
El lanzamiento de código abierto es una jugada estratégica para hacer crecer el ecosistema en torno a QVAC Fabric y posicionar el kit de herramientas de Tether como la infraestructura predeterminada para la IA descentralizada. Cualquier desarrollador puede tomar el código, integrarlo en un pipeline de inferencia y beneficiarse inmediatamente de los ahorros de memoria.
La amenaza competitiva es más aguda para los proveedores de GPU en la nube. Las GPU H100 y B200 de Nvidia, que dominan el mercado de inferencia en centros de datos, exigen precios superiores en parte porque son el único hardware capaz de ejecutar cargas de trabajo de contexto largo a escala. Si el hardware local puede manejar esas mismas cargas de trabajo con TurboQuant, el mercado direccionable para la inferencia en la nube podría reducirse. Los ingresos de Nvidia en centros de datos alcanzaron los $47.5 mil millones en su año fiscal más reciente, con la inferencia representando un estimado del 40 por ciento de ese total.
Aun así, los benchmarks independientes determinarán si la afirmación de compresión de 5x se mantiene en diferentes arquitecturas de modelos y longitudes de contexto. Las técnicas de cuantización a veces se degradan en el uso real con conversaciones más largas o tareas de razonamiento más complejas. Tether no reveló las condiciones de prueba para sus afirmaciones de compresión.
Tether no es una empresa que cotice en bolsa, pero las implicaciones para el ecosistema más amplio de la IA son medibles. Cada gigabyte de memoria liberado en dispositivos locales reduce el incentivo para enrutar la inferencia a través de APIs en la nube, potencialmente comprimiendo el mercado total direccionable para los proveedores de inferencia en la nube. Para los inversores en Nvidia, AMD y los hiperescaladores de la nube, la pregunta es qué tan rápido se traducen las ganancias de eficiencia de la inferencia local en una reducción de la demanda de centros de datos — un cronograma medido en años, no en trimestres.
Este artículo es solo para fines informativos y no constituye asesoramiento de inversión.