テザー、AIメモリ使用量を5分の1に削減する「TurboQuant」をオープンソース化

テザーのAI部門がGoogleのTurboQuantをオープンソース化し、ローカルデバイス向けにAIワーキングメモリを5分の1に圧縮。

AIワークロードをデータセンターに追いやっていたメモリのボトルネックが解消されつつある。テザーのAI研究グループは月曜日、GoogleのKVキャッシュ圧縮アルゴリズム「TurboQuant」のプロダクション実装をオープンソース化した。これにより、出力品質を維持しながらメモリ消費量を最大5分の1削減する。

「もし長文脈AIが超大規模データセンターでしか動作しないのであれば、AIは最大のハードウェアを所有する者によって形作られることになります」とテザーの最高経営責任者（CEO）パオロ・アルドイノ氏は語った。「TurboQuantは、メモリを障壁ではなくすることで、ローカルAIの可能性を変えます」。

KVキャッシュ（セッション中の文脈追跡にトランスフォーマーモデルが使用するワーキングメモリ）は、会話が長くなるにつれて拡大する。約26万2000トークン（数時間の会話または数百ページのテキストに相当）時点で、40億パラメータモデルのKVキャッシュは約8ギガバイトのメモリを消費する。4つの同時セッションでは、モデル本体を除いても32GBに達する。TurboQuantはこのキャッシュを元のサイズの5分の1にまで圧縮し、長文脈AIをコンシューマー向けGPU、スマートフォン、エッジデバイスで実現可能にする。

今回のリリースにより、テザーのオープンソースローカルAIエンジン「QVAC Fabric」（llama.cppからフォーク）は、AI推論の分散化競争において有力な候補として位置づけられる。TurboQuantの5倍圧縮が様々なモデルアーキテクチャで有効であれば、Amazon Web Services、Microsoft Azure、Google Cloudといったクラウドプロバイダー（2025年にAIインフラに推定2300億ドルを投資）から、推論ワークロードのかなりのシェアを奪う可能性がある。

TurboQuantが変えるローカルAIの計算構造

このアルゴリズムは、2026年3月24日にGoogle Researchが発表したもので、特にKVキャッシュに量子化を適用し、数値精度を16ビットまたは32ビット浮動小数点から4ビットまたは2ビット表現に圧縮する。多くの圧縮技術と異なり、TurboQuantはモデルの再トレーニングやファインチューニングを必要としない。開発者は、テザーのQVAC SDK 0.12.0を通じて既存のモデルに適用できる。このSDKには、完全な量子化パイプライン、一般的な推論エンジン向けのフレームワークアダプター、ワークロードに最適化されたデプロイプロファイルが含まれている。

開発者やスタートアップにとって、その意味合いは理論ではなく実務的なものだ。AI製品を短いコンテキストウィンドウとクラウド専用デプロイに合わせて設計する代わりに、チームはコンシューマー向けハードウェアでより長いセッションをサポートできる。コーディングアシスタントはコードベース全体を保持できる。法務文書レビューツールはノートパソコン上で数百ページの契約書を処理できる。学習アプリはチュートリアルセッション全体を通してコンテキストを維持できる——すべてリモートデータセンターを経由せずに。

テザーの実装は、PolarQuantやQuantized Johnson-Lindenstraussなど先行する圧縮技術を基盤に、効率化問題の異なる部分をターゲットに複数の技術を積み重ねている。同社は、暗号資産（仮想通貨）で有名になったステーブルコイン事業を超えてAIフットプリントを拡大しており、最近ではプライベートなオンデバイスAI向けQVAC Workbench、ローカルウェルネストラッキング向けQVAC Health、スマートフォンやウェアラブルで動作する医療AIモデル群QVAC MedPsyなどをリリースしている。

推論競争における戦略的駆け引き

このオープンソースリリースは、QVAC Fabricを中心としたエコシステムを拡大し、テザーのツールキットを分散型AIのデフォルトインフラとして位置づけるための戦略的な一手だ。どの開発者でもコードを取得し、推論パイプラインに統合し、メモリ削減のメリットを即座に享受できる。

競争上の脅威が最も大きいのはクラウドGPUプロバイダーだ。データセンター推論市場を支配するNvidiaのH100およびB200 GPUは、大規模な長文脈ワークロードを実行できる唯一のハードウェアであることから、プレミアム価格設定が可能となっている。ローカルハードウェアがTurboQuantで同じワークロードを処理できるようになれば、クラウド推論のアドレス可能市場は縮小する可能性がある。Nvidiaのデータセンター売上高は直近の会計年度で475億ドルに達し、推論がその約40％を占めると推定されている。

とはいえ、5倍の圧縮という主張が様々なモデルアーキテクチャやコンテキスト長で有効かどうかは、独立したベンチマークによって判断されることになる。量子化技術は、長い会話やより複雑な推論タスクにおいて、実運用での品質が低下することがある。テザーは圧縮性能のテスト条件を開示していない。

テザーは公開企業ではないが、広範なAIエコシステムへの影響は計測可能だ。ローカルデバイスで解放されるメモリ1GBごとに、推論をクラウドAPI経由でルーティングするインセンティブは減少し、クラウド推論プロバイダーの総アドレス可能市場（TAM）を圧縮する可能性がある。Nvidia、AMD、クラウドハイパースケーラーへの投資家にとっての問いは、ローカル推論の効率化がどの程度の速さでデータセンター需要の減少につながるか——そのタイムラインは四半期単位ではなく年単位で測られる。

本記事は情報提供のみを目的としており、投資アドバイスを構成するものではない。