La division IA de Tether a open-sourcé TurboQuant de Google, comprimant la mémoire de travail de l'IA par 5x pour les appareils locaux.
La division IA de Tether a open-sourcé TurboQuant de Google, comprimant la mémoire de travail de l'IA par 5x pour les appareils locaux.

La division IA de Tether a open-sourcé TurboQuant de Google, comprimant la mémoire de travail de l'IA par 5x pour les appareils locaux.
Un goulot d'étranglement mémoire qui force les charges de travail IA dans les data centers est en train de se dissoudre. Le groupe de recherche IA de Tether a open-sourcé TurboQuant lundi, une implémentation de production de l'algorithme de compression du cache KV de Google qui réduit la consommation mémoire jusqu'à 5x tout en préservant la qualité des résultats.
« Si l'IA à contexte long ne fonctionne qu'à l'intérieur des plus grands data centers, alors l'IA sera façonnée par ceux qui possèdent le plus de matériel », a déclaré Paolo Ardoino, directeur général de Tether. « TurboQuant change ce que l'IA locale peut accomplir en faisant de la mémoire un obstacle moins important. »
Le cache KV — la mémoire de travail que les modèles de transformeurs utilisent pour suivre le contexte durant une session — s'étend à mesure que les conversations s'allongent. À environ 262 000 tokens, équivalant à plusieurs heures de conversation ou quelques centaines de pages de texte, le cache KV d'un modèle de 4 milliards de paramètres consomme environ 8 gigaoctets de mémoire. Quatre sessions simultanées portent ce chiffre à 32 Go avant même de prendre en compte le modèle lui-même. TurboQuant comprime ce cache jusqu'à un cinquième de sa taille d'origine, rendant l'IA à contexte long réalisable sur les GPU grand public, les téléphones et les appareils de périphérie.
Cette publication positionne QVAC Fabric de Tether — son moteur IA local open-source dérivé de llama.cpp — comme un sérieux concurrent dans la course à la décentralisation de l'inférence IA. Si la compression 5x de TurboQuant se vérifie sur différentes architectures de modèles, elle pourrait rediriger une part significative des charges de travail d'inférence loin des fournisseurs cloud, notamment Amazon Web Services, Microsoft Azure et Google Cloud, qui ont ensemble dépensé environ 230 milliards de dollars en infrastructures IA en 2025.
L'algorithme, publié initialement par Google Research le 24 mars 2026, applique la quantification spécifiquement au cache KV — comprimant la précision numérique de virgule flottante 16 bits ou 32 bits vers des représentations 4 bits ou 2 bits. Contrairement à de nombreuses techniques de compression, TurboQuant ne nécessite aucun réentraînement ou réglage fin du modèle. Les développeurs peuvent l'appliquer aux modèles existants via le SDK QVAC 0.12.0 de Tether, qui comprend un pipeline de quantification complet, des adaptateurs de framework pour les moteurs d'inférence courants et des profils de déploiement optimisés par charge de travail.
Pour les développeurs et les startups, les implications sont pratiques plutôt que théoriques. Au lieu de concevoir des produits IA autour de fenêtres de contexte courtes et d'un déploiement exclusivement cloud, les équipes peuvent prendre en charge des sessions plus longues sur du matériel grand public. Un assistant de codage peut conserver l'intégralité d'une base de code. Un outil d'analyse de documents juridiques peut traiter des contrats de centaines de pages sur un ordinateur portable. Une application de tutorat peut maintenir le contexte pendant toute une session d'étude — le tout sans acheminer les données via un data center distant.
L'implémentation de Tether s'appuie sur des travaux de compression antérieurs, notamment PolarQuant et Quantized Johnson-Lindenstrauss, en empilant plusieurs techniques pour cibler différentes parties du problème d'efficacité. L'entreprise a élargi son empreinte IA au-delà de l'activité de stablecoins qui l'a rendue célèbre dans le monde des cryptomonnaies, avec des publications récentes notamment QVAC Workbench pour l'IA privée sur appareil, QVAC Health pour le suivi local du bien-être, et QVAC MedPsy, une famille de modèles IA médicaux conçus pour fonctionner sur téléphones et appareils portables.
La publication en open-source est un mouvement stratégique visant à développer l'écosystème autour de QVAC Fabric et à positionner la boîte à outils de Tether comme l'infrastructure par défaut pour l'IA décentralisée. Tout développeur peut récupérer le code, l'intégrer dans un pipeline d'inférence et bénéficier immédiatement des économies de mémoire.
La menace concurrentielle est la plus aiguë pour les fournisseurs de GPU cloud. Les GPU H100 et B200 de Nvidia, qui dominent le marché de l'inférence en data center, exigent des prix élevés en partie parce qu'ils sont le seul matériel capable d'exécuter des charges de travail à contexte long à grande échelle. Si le matériel local peut gérer ces mêmes charges de travail avec TurboQuant, le marché adressable pour l'inférence cloud pourrait se réduire. Le chiffre d'affaires de Nvidia dans les data centers a atteint 47,5 milliards de dollars au cours de son dernier exercice fiscal, l'inférence représentant environ 40 % de ce total.
Néanmoins, des benchmarks indépendants détermineront si l'affirmation de compression 5x tient sur différentes architectures de modèles et longueurs de contexte. Les techniques de quantification se dégradent parfois en utilisation réelle avec des conversations plus longues ou des tâches de raisonnement plus complexes. Tether n'a pas divulgué les conditions de test de ses affirmations de compression.
Tether n'est pas une société cotée en bourse, mais les implications pour l'écosystème IA au sens large sont mesurables. Chaque gigaoctet de mémoire libéré sur les appareils locaux réduit l'incitation à acheminer l'inférence via des API cloud, ce qui pourrait comprimer le marché total adressable pour les fournisseurs d'inférence cloud. Pour les investisseurs dans Nvidia, AMD et les hyperscalers cloud, la question est de savoir à quelle vitesse les gains d'efficacité de l'inférence locale se traduiront par une réduction de la demande en data centers — un horizon mesuré en années, pas en trimestres.
Cet article est fourni à titre d'information uniquement et ne constitue pas un conseil en investissement.