Anthropic、Fable 5が19日ぶりに復活——過剰な安全ガードレールが課題に

Anthropicが誇る最先端AIモデルが再び利用可能になったが、急遽導入された安全システムが無害なコードリクエストを誤検知し、ユーザーを性能の低いモデルに追いやっている。

Anthropicは7月1日、19日間にわたる停止期間を経てFable 5へのアクセスを復旧した。しかし、新たに導入された安全分類器が日常的なコーディングタスクで誤検知を多発させ、開発者は性能の劣るOpus 4.8への強制移行を余儀なくされている。同モデルは、Anthropicとして初めて一般公開されたMythosクラスのシステムであり、6月にトランプ政権が輸出規制を課したことを受け、オフラインとなっていた。この規制は、Amazon主導の調査によって同モデルの安全機構を回避するプロンプト技術が発見されたことを受けたものだ。

「新しい分類器は、日常的なプログラミングやデバッグタスクにおいて、当社が望む水準を上回る誤検知率を示している」とAnthropicは復旧を告知するブログ投稿で述べている。商務省の要件に準拠するために追加されたこのセーフガードは、リスクがあると判断したリクエストを傍受し、ユーザーに警告することなくOpus 4.8にルーティングする。

7月7日まで、対象となるPro、Max、Team、および一部のEnterpriseサブスクライバーは、週間使用枠の最大50%をFable 5に割り当てることができるが、それを超えると追加クレジットが消費される。Fable 5はOpus 4.8よりもクレジット消費が速く、ユーザーの不満を増幅させている。7月7日以降は、すべてのFable 5の使用にクレジットが必要となる。

この騒動は、AI安全規制と製品のユーザビリティの間の緊張関係を浮き彫りにしている。この力学は、エンタープライズによる高度なAIモデルの採用を鈍化させ、中央集権的なガードレールなしで運用されるDeepSeekなどのプロバイダーが提供するオープンウェイトモデルへ開発者を向かわせる可能性がある。

木とドローンの区別がつかない分類器

Reddit上のある地球科学の博士課程学生は、樹木が周囲温度を下げる仕組みを研究するためにFable 5を使用しようとしたと述べている。分類器がそのリクエストをフラグし、Opus 4.8に切り替えられた。そこで彼は、DJIのSDKを使用してドローンスウォームを制御するコードを依頼してシステムをテストしたところ、Fable 5は中断なく完全なソリューションを提供したという。

「これは安全システムではない——ランダムゲートだ」と研究者は書き込んだ。

Anthropicは復旧投稿の中でこの問題を認め、Amazonの研究者が特定した特定のプロンプト技術を99%以上のケースで分類器がブロックしているものの、無害なリクエストに対する誤警報が頻発していると述べている。同社は、何件のユーザーセッションが影響を受けたかは開示していない。

この誤検知問題は、Fable 5のコアな強みが複雑で多段階のコーディングタスクにあるだけに、特に深刻な打撃となる。同モデルをテストした開発者によれば、分類器に中断されなければ、長期的なエージェントタスクにおいて公開されているいかなるモデルよりも優れた性能を発揮し、SWE-Bench Proベンチマークで80%以上のスコアを記録している。ある開発者はFable 5を使用して、公開されている建築データからニューヨーク市のスカイラインをBlenderで20分で再現した。別の開発者は、4つのプロンプトを使用して、173ドルのトークンコストでゼロから完全なゲームを構築した。

Anthropic、業界全体の安全基準策定を推進

今後の規制上の行き詰まりを防ぐため、AnthropicはAmazon、Microsoft、Googleと協力し、AI脱獄（ジェイルブレイク）の深刻度を評価するための標準化された枠組みを構築している。提案されているシステムは、エクスプロイトを「能力向上度」「獲得能力の幅」「兵器化の難易度」「発見可能性」の4つの次元で評価する。4つのカテゴリーすべてで最大値に達するエクスプロイト——例えば、重要インフラを混乱させる可能性のある技術——のみが、即時対応を要する最高警告レベルを発動する。

同社はまた、政府機関に対し、将来のモデルに対する安全性テストのためのプレリリースアクセスを提供すること、脆弱性情報を迅速に共有すること、Fable 5向けのHackerOneバグ報奨金プログラムに資金を提供することにも合意した。ハワード・ラトニック商務長官は書簡で規制解除を確認し、Anthropicが「モデルによってもたらされるセキュリティリスクを積極的に検出し対処することに合意した」と述べている。

この一件は、中央集権的なガードレールなしで運用され、コーディングベンチマークで競争力のあるパフォーマンスを示しているDeepSeekのV4-Proモデルなど、オープンウェイトモデルプロバイダーにとって有利に働く可能性がある。AI導入の主要な構成員である開発者コミュニティにおけるAnthropicの信用は傷ついており、Fable 5の機能を収益化する能力は、分類器の誤検知問題の解決にかかっている。AnthropicはFable 5のトークンあたりの価格を開示していないが、7月7日以降は使用クレジットが適用されると述べている。

本記事は情報提供のみを目的としており、投資助言を構成するものではありません。