エンタープライズAIのコスト圧力、CFOが人材からトークンへと舵を切る

エンタープライズAIワークロードの95%は、テキスト要約やメール分類のような単純なタスクであっても、依然としてプレミアムなフロンティアモデルで稼働している。その背景には、最高財務責任者（CFO）らが将来の人員削減と引き換えにより安価なトークンを調達し始め、企業のテクノロジー予算を根本から組み替える構造的な変化がある。

「トークン単価の問題は、エンジニアリングチームから取締役会へと移りました」と、EdgenのエンタープライズAIアナリスト、アレックス・グエン氏は指摘する。「CFOは、より安価なモデルで動作する1つのAIエージェントで3人のジュニアアナリストを代替できることに気づき始めています。その計算は、10倍のボリュームで成立するのです。」

その算術は極めて明快だ。DeepSeekのV4 Proモデルは、SWE-bench Verifiedコーディングベンチマークで80.6%、高度なMMLU-Pro推論指数で87.5をスコアリングし、入力100万トークンあたり0.435ドル、出力100万トークンあたり0.87ドルと、AnthropicのClaude SonnetやOpenAIのGPT-5.5-Medと比較して、入力で7倍、出力で17倍の低コストを実現する。軽量版のV4 Flashは、Claude Haikuなどのエントリーレベルの代替品と比較して10倍から25倍も低価格だ。同社の公表価格によれば、中国国内でネイティブホスティングした場合、DeepSeekのキャッシュリード価格は、西側クラウドの代替品よりも87倍も安い。

このコスト格差は、企業に現実を突きつけている。Uberは、Claude CodeとCursor向けに割り当てた2026年度の予算全体を、今年の最初の4ヶ月で使い切った。最高執行責任者（COO）は、それに見合う優れたプロダクトが生まれなければ「正当化が難しくなる」とスタッフに語ったという。Airbnbのブライアン・チェスキーCEOは、自社が本番環境でOpenAIの最新モデルに大きく依存することを避け、AlibabaのQwenのような高速で安価な代替モデルを好むと述べている。Pinterestの最高技術責任者（CTO）は、AlibabaのオープンソースモデルQwenを自社の独自データである「テイストグラフ」でポストトレーニングすることにより、フロンティアモデルと同等の品質をコスト90%削減で達成したことを確認した。

トークンコストの危機は、エンタープライズAI市場の恒久的な二極化を加速させている。 VentureBeatの2026年第1四半期調査（従業員100名超の組織のエンタープライズユーザー対象）によると、「トークンコストまたはライセンスモデル」を主要な選定基準とする割合は、1月から3月の間に25.4%から36.7%に急上昇し、生のパフォーマンスに次ぐ基準となった。Andreessen Horowitzのインフラ分析によれば、エンタープライズの本番環境では現在、ワークロードを価格に応じて最適にルーティングし、単一ベンダーへのロックインを回避するために、中央値で14の異なるモデルを同時にデプロイしている。

主要なモデル利用プロキシであるOpenRouterでは、DeepSeekのV4 Flashが過去1週間でトークン消費量を48%急増させ、1位を獲得した。DeepSeekのトップ3モデルは同プラットフォーム上で約6兆トークンを処理した一方、OpenAIのプレミアムモデルGPT-5.5は4700億トークンで15位に後退した。OpenRouterは最近、ServiceNow Ventures、Snowflake Ventures、Databricks Ventures、NvidiaのNVentures、GoogleのCapitalGを引受先とする1億1300万ドルのシリーズBラウンドを調達した。これは、エンタープライズインフラベンダーがマルチモデルルーティングをデフォルトアーキテクチャとして支持していることの表れだ。

この構造的なマージン圧縮は、すべての西側AIラボに均等に襲いかかるわけではない。Anthropicは、Claude Codeのようなプレミアムソフトウェア製品によって、エンジニアリングチームが中核的なプロダクション開発において決定論的な正確性を求めて支払うセグメントを抱えており、依然として守られている。OpenAIはより大きなエクスポージャーに直面している。そのエンタープライズ収益のより大きなシェアは、高頻度・汎用のAPIトークンストリームに依存しており、まさにこのコモディティ層をオープンウェイトモデルが商品化しつつある。DeepSeekのアーキテクチャは、1.6兆パラメータモデルのキーバリューキャッシュを、100万トークンのコンテキストループに対してわずか5.48ギガバイトの高帯域幅メモリに圧縮する（同等の西側アーキテクチャでは89ギガバイト）。この設計により、コスト優位性はプロモーション価格ではなく、構造的なものとなっている。

エンタープライズのテクノロジーバイヤーにとって、判断基準は「どのモデルが最良か」から「この特定のタスクに対して、この価格帯ではどのモデルが最良か」へとシフトしている。推論ルーティングを最適化できない企業は、マルチステップの自律型エージェントの展開に伴いAIトークン消費量が指数関数的に増加する中で、マージン圧縮のリスクを負うことになる。一方、階層型モデルアーキテクチャを採用し、ミッションクリティカルな推論にはプレミアムフロンティアモデルを温存し、高頻度のバックグラウンドタスクをより安価なオープンウェイトの代替モデルにルーティングする企業は、CFOが今まさに要求しているコスト削減を実現できる立場にある。

本記事は情報提供のみを目的としており、投資助言を構成するものではありません。