Tether mở mã nguồn TurboQuant giúp giảm mức sử dụng bộ nhớ AI tới 5 lần

Bộ phận AI của Tether đã mở mã nguồn TurboQuant của Google, nén bộ nhớ làm việc của AI tới 5 lần cho các thiết bị cục bộ.

Một nút thắt cổ chai về bộ nhớ đang buộc khối lượng công việc AI phải chạy trong các trung tâm dữ liệu đang dần biến mất. Nhóm Nghiên cứu AI của Tether đã mở mã nguồn TurboQuant vào thứ Hai, một bản triển khai sản xuất của thuật toán nén bộ nhớ đệm KV của Google, giúp giảm mức tiêu thụ bộ nhớ tới 5 lần trong khi vẫn duy trì chất lượng đầu ra.

"Nếu AI ngữ cảnh dài chỉ hoạt động trong các trung tâm dữ liệu lớn nhất, thì AI sẽ bị định hình bởi những người sở hữu nhiều phần cứng nhất," Paolo Ardoino, giám đốc điều hành của Tether, cho biết. "TurboQuant thay đổi những gì AI cục bộ có thể làm bằng cách biến bộ nhớ không còn là một bức tường cản trở."

Bộ nhớ đệm KV — bộ nhớ làm việc mà các mô hình transformer sử dụng để theo dõi ngữ cảnh trong một phiên — mở rộng khi các cuộc hội thoại kéo dài. Ở khoảng 262.000 token, tương đương với vài giờ hội thoại hoặc vài trăm trang văn bản, bộ nhớ đệm KV cho một mô hình 4 tỷ tham số tiêu thụ khoảng 8 gigabyte bộ nhớ. Bốn phiên đồng thời đẩy con số đó lên 32 GB trước khi tính đến bản thân mô hình. TurboQuant nén bộ nhớ đệm đó xuống chỉ còn một phần năm kích thước ban đầu, giúp AI ngữ cảnh dài khả thi trên các GPU tiêu dùng, điện thoại và thiết bị biên.

Việc phát hành này đưa QVAC Fabric của Tether — công cụ AI cục bộ mã nguồn mở được phân nhánh từ llama.cpp — trở thành một ứng cử viên nghiêm túc trong cuộc đua phân cấp suy luận AI. Nếu khả năng nén 5 lần của TurboQuant duy trì được trên các kiến trúc mô hình khác nhau, nó có thể chuyển hướng một phần đáng kể khối lượng công việc suy luận khỏi các nhà cung cấp đám mây bao gồm Amazon Web Services, Microsoft Azure và Google Cloud, những đơn vị đã cùng chi khoảng 230 tỷ đô la cho cơ sở hạ tầng AI trong năm 2025.

Cách TurboQuant Thay Đổi Bài Toán Kinh Tế của AI Cục Bộ

Thuật toán, ban đầu được Google Research công bố vào ngày 24 tháng 3 năm 2026, áp dụng lượng tử hóa đặc biệt cho bộ nhớ đệm KV — nén độ chính xác số từ dấu phẩy động 16-bit hoặc 32-bit xuống các biểu diễn 4-bit hoặc 2-bit. Không giống như nhiều kỹ thuật nén khác, TurboQuant không yêu cầu đào tạo lại hoặc tinh chỉnh mô hình. Các nhà phát triển có thể áp dụng nó cho các mô hình hiện có thông qua QVAC SDK 0.12.0 của Tether, bao gồm một pipeline lượng tử hóa hoàn chỉnh, các bộ điều hợp framework cho các công cụ suy luận phổ biến và các cấu hình triển khai được tối ưu hóa theo khối lượng công việc.

Đối với các nhà phát triển và startup, những tác động mang tính thực tế hơn là lý thuyết. Thay vì thiết kế các sản phẩm AI xoay quanh cửa sổ ngữ cảnh ngắn và triển khai chỉ trên đám mây, các nhóm có thể hỗ trợ các phiên dài hơn trên phần cứng tiêu dùng. Một trợ lý lập trình có thể lưu giữ toàn bộ mã nguồn. Một công cụ rà soát tài liệu pháp lý có thể xử lý các hợp đồng hàng trăm trang trên một chiếc laptop. Một ứng dụng dạy kèm có thể duy trì ngữ cảnh trong suốt một buổi học — tất cả mà không cần định tuyến dữ liệu qua một trung tâm dữ liệu từ xa.

Việc triển khai của Tether xây dựng dựa trên các công trình nén trước đó bao gồm PolarQuant và Quantized Johnson-Lindenstrauss, kết hợp nhiều kỹ thuật để nhắm vào các phần khác nhau của vấn đề hiệu quả. Công ty đã mở rộng dấu ấn AI của mình ra ngoài lĩnh vực kinh doanh stablecoin vốn đã đưa họ trở thành cái tên quen thuộc trong lĩnh vực tiền điện tử, với các bản phát hành gần đây bao gồm QVAC Workbench cho AI trên thiết bị cá nhân, QVAC Health cho theo dõi sức khỏe cục bộ và QVAC MedPsy, một họ mô hình AI y tế được thiết kế để chạy trên điện thoại và thiết bị đeo.

Cục Diện Cạnh Tranh trong Cuộc Đua Suy Luận

Việc phát hành mã nguồn mở là một nước đi chiến lược nhằm phát triển hệ sinh thái xung quanh QVAC Fabric và định vị bộ công cụ của Tether như cơ sở hạ tầng mặc định cho AI phi tập trung. Bất kỳ nhà phát triển nào cũng có thể lấy mã, tích hợp nó vào một pipeline suy luận và ngay lập tức hưởng lợi từ việc tiết kiệm bộ nhớ.

Mối đe dọa cạnh tranh là nghiêm trọng nhất đối với các nhà cung cấp GPU đám mây. Các GPU H100 và B200 của Nvidia, thống trị thị trường suy luận trung tâm dữ liệu, có giá cao một phần vì chúng là phần cứng duy nhất có khả năng chạy khối lượng công việc ngữ cảnh dài ở quy mô lớn. Nếu phần cứng cục bộ có thể xử lý các khối lượng công việc tương tự với TurboQuant, thị trường có thể tiếp cận cho suy luận đám mây có thể thu hẹp lại. Doanh thu trung tâm dữ liệu của Nvidia đạt 47,5 tỷ đô la trong năm tài chính gần nhất, với suy luận chiếm khoảng 40% tổng số đó.

Tuy nhiên, các điểm chuẩn độc lập sẽ quyết định liệu tuyên bố nén 5 lần có đúng với các kiến trúc mô hình và độ dài ngữ cảnh khác nhau hay không. Các kỹ thuật lượng tử hóa đôi khi bị suy giảm trong sử dụng thực tế với các cuộc hội thoại dài hơn hoặc các tác vụ suy luận phức tạp hơn. Tether đã không tiết lộ các điều kiện kiểm tra cho các tuyên bố nén của mình.

Tether không phải là một công ty đại chúng, nhưng những tác động đối với hệ sinh thái AI rộng lớn hơn là có thể đo lường được. Mỗi gigabyte bộ nhớ được giải phóng trên các thiết bị cục bộ làm giảm động lực định tuyến suy luận thông qua các API đám mây, có khả năng thu hẹp tổng thị trường có thể tiếp cận cho các nhà cung cấp suy luận đám mây. Đối với các nhà đầu tư vào Nvidia, AMD và các nhà cung cấp dịch vụ siêu quy mô đám mây, câu hỏi đặt ra là liệu hiệu quả suy luận cục bộ có thể chuyển đổi nhanh chóng như thế nào thành nhu cầu trung tâm dữ liệu giảm — một mốc thời gian được tính bằng năm, chứ không phải quý.

Bài viết này chỉ nhằm mục đích cung cấp thông tin và không cấu thành lời khuyên đầu tư.