Offchain Labsの新しいサンプリングベースのプロトコルにより、AI推論検証時間が15分からミリ秒に短縮され、ユーザーがGPU上で実際にどのモデルが動作しているかを確認できないという信頼のギャップが解消される。
Offchain Labsの新しいサンプリングベースのプロトコルにより、AI推論検証時間が15分からミリ秒に短縮され、ユーザーがGPU上で実際にどのモデルが動作しているかを確認できないという信頼のギャップが解消される。

Arbitrumの開発元であるOffchain Labsは6月3日、サンプリングベースの手法を提案する研究論文を発表した。この手法により、AI推論の証明生成時間が約15分からミリ秒に短縮される。
「トークン単価モデルは不正に対する具体的な経済的インセンティブを生み出す。70億パラメータモデルよりも70億パラメータモデルの方がコストが低く、量子化推論の実行はフル精度よりも安価である」と、Offchain Labsの論文著者らは、Towards Verifiable AI with Lightweight Cryptographic Proofs of Inference(軽量暗号証明による検証可能なAIに向けて)と題された2026年3月の研究論文で述べている。
ゼロ知識ロールアップで使用されるタイプの既存の暗号証明は、再実行なしで正しい計算を実証できるが、zkLLMなどのスキームでは、130億パラメータモデルの単一の推論証明を生成するのに約15分を要する。これは、1秒未満で応答しなければならないAPIには非現実的な時間枠である。Offchain Labsの提案は、全数再実行を放棄し、ランダムサンプリングを採用する。サーバーはモデルの重みと内部値のデジタルフィンガープリントにコミットし、クライアントは出力に向かうランダムなパスを選択し、サーバーにそのパスに沿った値のみを開示するよう要求する。サーバーがより小さいモデルに置き換えた場合、値は不整合となり検証が失敗し、検出確率は繰り返しクエリを実行するたびに累積される。
このプロトコルは、Arbitrum Oneを保護するのと同じ紛争解決ロジック(オプティミスティック・ロールアップはすべての計算ではなく、紛争が発生したステップのみを再実行する)をニューラルネットワーク推論に拡張し、2つのサーバー間の不一致を対数回のラウンドで絞り込む二分法を採用している。モデルガバナンスを必要とする規制産業や自律エージェントの新興市場において、透明性の主張と検証可能な主張の違いは、直接的な結果をもたらし始めている。
スタンフォード大学の研究者らは、GPT-3.5とGPT-4の動作が2023年3月から6月の間に、同じ評価タスクにおいて測定可能な方法で変化したことを記録している。しかし、現在のAPI契約では、その差異を検出するメカニズムは提供されていない。モデル置き換えの経済的インセンティブはボリュームに応じて拡大する。プロバイダーは、クエリの一部をより小規模または量子化されたモデルにリダイレクトしつつ、より大規模なモデルの料金を請求することができる。
Arbitrumとの関連性は論文で明確に示されている。オプティミスティック・ロールアップは同じ直感に基づいて動作する。すべてのマシンで長い計算のすべてのステップを再実行することは高コストだが、紛争のあるステップだけをサンプリングすることは低コストである。提案されたプロトコルは、そのロジックをニューラルネットワークの値に拡張し、Arbitrum Oneを保護するのと同じ二分法ベースの紛争解決構造を採用している。
規制産業、モデルガバナンスチーム、そして新興の自律エージェント市場にとって、このプロトコルは開発者が既存のスタックを修正する必要はなく、システム内の誰か(プロバイダー、監査人、プラットフォームのいずれか)が検証可能なステートメントを生成することのみを必要とする。
本記事は情報提供のみを目的としており、投資助言を構成するものではない。