Tether的AI部门将Google Research的一篇论文转化为生产代码,可将大语言模型在长时间会话中的内存需求最多削减五倍。
Tether的AI部门将Google Research的一篇论文转化为生产代码,可将大语言模型在长时间会话中的内存需求最多削减五倍。

Tether AI研究团队周一发布了TurboQuant的开源实现。该算法源自Google Research,可将键值缓存——即Transformer模型用于追踪上下文的工作内存——压缩至多5倍,且无需重新训练或微调现有模型。这一突破使得在笔记本电脑、手机及边缘设备上运行强大AI成为可能,而无需将每次任务路由至云端数据中心。
"如果长上下文AI只能运行在最大的数据中心内,那么AI的形态将被拥有最多硬件的公司所掌控,"Tether首席执行官Paolo Ardoino在声明中表示。"TurboQuant通过让内存不再成为壁垒,改变了本地AI的能力边界。"
KV缓存是将长时间AI会话迫入云端的瓶颈。在约26.2万token时——相当于数小时对话或数百页文本——一个40亿参数模型的KV缓存自身就消耗约8GB内存。四个并发会话在该长度下,缓存占用便超过32GB,这还未计入模型权重本身。TurboQuant将该占用压缩至每会话约1.6GB,四个会话合计6.4GB,使得搭载16GB至32GB统一内存的消费级硬件即可整体运行。
该更新是Tether去中心化AI平台QVAC SDK 0.12.0版本的一部分,该版本还新增了文生视频和机器人控制能力。SDK包含完整的量化流水线、常见推理框架适配器、文档以及面向工作负载优化的部署配置。开发者无需从头开始,即可将TurboQuant应用于现有模型——无需重新训练或微调。
内存为何对AI栈至关重要
内存限制一直是阻碍AI工作负载集中于超大规模数据中心的结构性壁垒之一。仅KV缓存就需要16GB工作内存的模型,无法在MacBook Air或中端Android手机上运行。将其压缩至3.2GB彻底改变了部署逻辑,为可以处理数百页文档、保持完整项目上下文并在本地处理私人数据的设备端助手打开了大门。
Tether的实现建立在公司此前叠加至QVAC的若干压缩技术基础之上,包括PolarQuant和Quantized Johnson-Lindenstrauss。每项技术针对效率问题的不同环节。TurboQuant是最新一层,改编自Google Research于3月24日发表的一篇论文。
此次开源发布是一项战略举措,旨在围绕QVAC构建生态,并将Tether平台定位为去中心化AI的默认工具包。任何开发者均可直接获取代码并集成到自身的推理流水线中。这使Tether与llama.cpp、Ollama等现有本地AI框架,以及那些依赖将推理路由至其数据中心以维持商业模式的云服务商直接竞争。
这对投资者意味着什么
Tether最广为人知的身份是发行1400亿美元USDT稳定币的公司。近段时间,该公司大举扩张AI基础设施。其核心观点是,AI的下一阶段将由软件效率和可移植性定义,而非原始算力的规模。如果TurboQuant的5倍压缩效果能在不同模型架构和上下文长度下得到验证——独立基准测试尚未发布——则可能加速推理工作负载从集中式云服务向本地设备迁移,从而压缩云GPU服务商的收入增长空间,同时扩大边缘AI硬件的潜在市场规模。
本文仅供信息参考,不构成投资建议。