重點提要:
- 根據評估機構 METR 的數據,Anthropic 的 Claude Mythos AI 模型在人類通常需要 16 小時完成的軟件任務中實現了 50% 的成功率。
- Palo Alto Networks 報告稱,使用此類前沿 AI 模型可將一年的漏洞分析工作壓縮至僅三週,並在幾分鐘內創建攻擊鏈。
- 批評人士指出,50% 的成功率尚不足以進行完全自主部署,凸顯了研究基準與企業級可靠性之間的差距。
重點提要:

一項新的 AI 基準表明,模型現在可以處理耗時 16 小時的任務,跨越了自主工作和網絡安全應用的關鍵門檻。
來自 Anthropic 的前沿 AI 模型已證明能夠自主完成長達 16 小時的複雜軟件工程任務,這一新的能力閾值正在重塑 AI 驅動的網絡安全格局。AI 評估小組 METR 的結果表明模型能力呈現超指數級增長,Palo Alto Networks Inc. 等網絡安全供應商報告稱,這一趨勢已對進攻和防禦行動產生了巨大影響。
Palo Alto Networks 在一份關於該技術影響的近期報告中寫道:「利用 [前沿 AI] 輔助漏洞分析,在短短 3 週內完成工作的深度和廣度,相當於一整個頂尖滲透測試團隊一整年的工作量。」
新基準顯示,Anthropic 的 Claude Mythos 模型在需要人類工作 16 小時的任務中可以達到 50% 的成功率。這種能力的飛躍正迫使軟件界迅速重新評估風險和生產力。獲得該模型早期訪問權限的 Palo Alto Networks 發現,它可以將尋找並串聯多個低風險漏洞以形成致命攻擊鏈的過程壓縮至僅 25 分鐘。
這一發展加速了網絡安全公司之間的 AI 軍備競賽,給 Palo Alto Networks (PANW)、Fortinet (FTNT) 和 Zscaler Inc. 等現有巨頭帶來了壓力。它還加劇了 Anthropic 與其對手 OpenAI 等 AI 開發商之間的平台競爭。對於投資者而言,關鍵問題在於這種新水平的 AI 自主性如何轉化為可靠的企業產品和可持續的收入流。
METR 的「時間跨度」圖表衡量了前沿模型可以完成的軟件開發任務的長度。最新結果顯示,Mythos 在一半的時間內成功處理了 16 小時的任务,這比模型前幾年能處理的分鐘級或單小時任務有了顯著飛躍。評估機構指出,其自身測試模型的能力正面臨挑戰,因為旨在耗時 16 小時以上的任務數量有限,因此很難衡量模型能力的真正上限。
這種快速且加速的進展被稱為「超指數級」增長,AI 能力的每一次代際飛躍似乎都比上一次更大。趨勢線表明,原預測 2027 年才能達到的能力現已實現,這既引發了對生產力提升的興奮,也引發了對日益強大和自主的 AI 代理安全隱患的擔憂。
Palo Alto Networks 的研究發現為 METR 基準的含義提供了一個鮮明的現實案例。將人類頂尖團隊一年的工作量自動化為三週,代表了網絡進攻與防禦平衡的根本性轉變。
這種能力並不局限於一家公司。競爭對手也在整合先進 AI。最近被評為 2026 年 Gartner 全球威脅情報領導者的 CrowdStrike Holdings (CRWD) 正在擴大其 Project QuiltWorks 聯盟,將前沿 AI 應用於風險管理。SentinelOne (S) 推出了 Wayfinder 服務,利用 AI 識別並確定可利用攻擊路徑的優先級,而 Okta Inc. (OKTA) 正在開發新框架,以管理 AI 代理本身的身份。
雖然 16 小時的數字令人印象深刻,但批評者警告不要過度推斷該基準。關鍵的限制因素是 50% 的成功率。對於研發工作,人類專家可以審查並丟棄失敗的嘗試,那麼在 16 小時任務上達到 50% 的成功率是具有變革性的,它有效地使人類工程師的產出翻了一番。
然而,對於部署在生產環境中的完全自主系統,50% 的失敗率是不可接受的。AI 研究員 Gary Marcus 在最近的一份分析中指出:「自主商業使用的可靠性閾值在 95% 到 99.9% 之間。」他認為,METR 圖表僅關注 50% 的成功線,並未顯示 AI 縮小與企業級可靠性差距的速度有多快。關於從 50% 到 99% 成功率需要多久的爭論,是圍繞通用人工智能 (AGI) 及其現實影響討論的核心。
本文僅供參考,不構成投資建議。