Tether, TurboQuant'ı açık kaynakla yapay zeka bellek kullanımını 5 kata kadar azaltıyor

Tether'in yapay zeka bölümü, Google'ın TurboQuant'ını açık kaynakla yayımlayarak yapay zeka çalışma belleğini yerel cihazlar için 5 kata kadar sıkıştırdı.

Yapay zeka iş yüklerini veri merkezlerine iten bir bellek darboğazı ortadan kalkıyor. Tether AI Araştırma Grubu Pazartesi günü TurboQuant'ı açık kaynakla yayımladı. Bu, Google'ın KV önbellek sıkıştırma algoritmasının, çıktı kalitesini korurken bellek tüketimini 5 kata kadar azaltan bir üretim uygulaması.

"Eğer uzun bağlamlı yapay zeka yalnızca en büyük veri merkezlerinde çalışabiliyorsa, yapay zeka en çok donanıma sahip olan kişi tarafından şekillendirilecektir," dedi Tether'in CEO'su Paolo Ardoino. "TurboQuant, belleği daha az bir engel haline getirerek yerel yapay zekanın neler yapabileceğini değiştiriyor."

KV önbelleği — dönüştürücü modellerin bir oturum sırasında bağlamı takip etmek için kullandığı çalışma belleği — konuşmalar uzadıkça genişler. Yaklaşık 262.000 token'de (birkaç saatlik konuşma veya birkaç yüz sayfa metne eşdeğer), 4 milyar parametreli bir model için KV önbelleği yaklaşık 8 gigabayt bellek tüketir. Dört eşzamanlı oturum, modelin kendisi hesaba katılmadan önce bunu 32 GB'a çıkarır. TurboQuant bu önbelleği orijinal boyutunun beşte birine kadar sıkıştırarak uzun bağlamlı yapay zekayı tüketici GPU'larında, telefonlarda ve uç cihazlarda kullanılabilir hale getiriyor.

Bu sürüm, Tether'in llama.cpp'den çatallanan açık kaynaklı yerel AI motoru QVAC Fabric'i, yapay zeka çıkarımını merkeziyetsizleştirme yarışında ciddi bir rakip konumuna getiriyor. TurboQuant'ın 5 kat sıkıştırma oranı model mimarileri genelinde geçerli olursa, bu durum çıkarım iş yüklerinin önemli bir kısmını Amazon Web Services, Microsoft Azure ve Google Cloud dahil olmak üzere bulut sağlayıcılarından uzaklaştırabilir. Bu üç şirket 2025'te yapay zeka altyapısına tahmini olarak 230 milyar dolar harcadı.

TurboQuant Yerel Yapay Zeka Denklemini Nasıl Değiştiriyor

Google Research tarafından 24 Mart 2026'da yayımlanan algoritma, nicemlemeyi özellikle KV önbelleğine uyguluyor — sayısal hassasiyeti 16-bit veya 32-bit kayan noktadan 4-bit veya 2-bit temsillere sıkıştırıyor. Birçok sıkıştırma tekniğinin aksine, TurboQuant herhangi bir model yeniden eğitimi veya ince ayar gerektirmiyor. Geliştiriciler, mevcut modellere Tether'in QVAC SDK 0.12.0'sı aracılığıyla uygulayabiliyor. Bu SDK, tam bir nicemleme hattı, yaygın çıkarım motorları için çerçeve bağdaştırıcıları ve iş yüküne göre ayarlanmış dağıtım profilleri içeriyor.

Geliştiriciler ve startup'lar için sonuçlar teorik olmaktan çok pratik. Ekipler, yapay zeka ürünlerini kısa bağlam pencereleri ve yalnızca buluta dayalı dağıtım etrafında tasarlamak yerine, tüketici donanımlarında daha uzun oturumları destekleyebiliyor. Bir kodlama asistanı tüm kod tabanını hafızasında tutabiliyor. Bir hukuki belge inceleme aracı yüz sayfalık sözleşmeleri bir dizüstü bilgisayarda işleyebiliyor. Bir ders verme uygulaması, tüm bir çalışma oturumu boyunca bağlamı koruyabiliyor — tüm bunlar verileri uzaktaki bir veri merkezine yönlendirmeden gerçekleşiyor.

Tether'in uygulaması, PolarQuant ve Quantized Johnson-Lindenstrauss dahil olmak üzere önceki sıkıştırma çalışmalarının üzerine inşa ediliyor ve verimlilik sorununun farklı kısımlarını hedeflemek için birden fazla tekniği bir araya getiriyor. Şirket, kriptoda adını duyuran stablecoin işinin ötesinde yapay zeka ayak izini genişletmeye devam ediyor. Son sürümler arasında özel cihaz içi AI için QVAC Workbench, yerel sağlık takibi için QVAC Health ve telefonlar ve giyilebilir cihazlarda çalışmak üzere tasarlanmış bir tıbbi AI model ailesi olan QVAC MedPsy yer alıyor.

Çıkarım Yarışında Rekabetçi Dinamikler

Açık kaynak sürümü, QVAC Fabric etrafındaki ekosistemi büyütmek ve Tether'in araç setini merkeziyetsiz AI için varsayılan altyapı olarak konumlandırmak amacıyla yapılan stratejik bir hamle. Herhangi bir geliştirici kodu alabilir, bir çıkarım hattına entegre edebilir ve bellek tasarruflarından hemen faydalanabilir.

Rekabetçi tehdit en çok bulut GPU sağlayıcıları için belirgin. Veri merkezi çıkarım pazarına hakim olan Nvidia'nın H100 ve B200 GPU'ları, kısmen uzun bağlamlı iş yüklerini ölçekte çalıştırabilen tek donanım oldukları için primli fiyatlandırmaya sahip. Yerel donanım, TurboQuant ile aynı iş yüklerini kaldırabilirse, bulut çıkarımının toplam adreslenebilir pazarı daralabilir. Nvidia'nın veri merkezi geliri son mali yılında 47,5 milyar dolara ulaştı ve çıkarımın bunun tahmini yüzde 40'ını oluşturduğu düşünülüyor.

Yine de, bağımsız kıyaslamalar, 5 kat sıkıştırma iddiasının farklı model mimarileri ve bağlam uzunlukları genelinde geçerli olup olmadığını belirleyecek. Nicemleme teknikleri bazen daha uzun konuşmalar veya daha karmaşık akıl yürütme görevleriyle gerçek dünya kullanımında bozulma gösterebiliyor. Tether, sıkıştırma iddiaları için test koşullarını açıklamadı.

Tether halka açık bir şirket olmasa da, daha geniş AI ekosistemi için etkileri ölçülebilir. Yerel cihazlarda boşaltılan her gigabayt bellek, çıkarımı bulut API'leri üzerinden yönlendirme teşvikini azaltarak, bulut çıkarım sağlayıcıları için toplam adreslenebilir pazarı potansiyel olarak daraltıyor. Nvidia, AMD ve bulut hiper ölçekleyicilerine yatırım yapanlar için soru, yerel çıkarım verimliliği kazanımlarının ne kadar hızlı bir şekilde veri merkezi talebinde azalmaya dönüşeceği — çeyreklerle değil yıllarla ölçülen bir zaman çizelgesi.

Bu makale yalnızca bilgilendirme amaçlıdır ve yatırım tavsiyesi niteliği taşımaz.