谷歌 AlphaProof Nexus 僅用數美元解決 9 道數學難題

谷歌 DeepMind 的 AlphaProof Nexus 是一種將大語言模型與形式證明檢查相結合的 AI 系統，目前已解決 353 個公開埃爾多斯問題中的 9 個，以及《整數數列在線百科全書》中 492 個公開猜想中的 44 個。這一突破在每個問題上僅花費數百美元，展示了 AI 驅動的形式驗證新前沿，可能改變關鍵軟件的構建方式。

“各組織應謹慎對待未經驗證的‘感性編碼’ (vibe coding)，因為 AI 系統正迅速進入正確性不再是可選項的環境中，”競爭對手 AI 實驗室 Logical Intelligence 的創始人兼 CEO 埃夫·博迪納 (Eve Bodina) 在最近的一份聲明中表示。“形式推理基準正變得越來越重要，因為它們迫使 AI 系統在數學強制執行正確性的環境中運行。”

研究結果記錄在 2026 年 5 月 21 日發表的 arXiv 預印本 (2605.22763v1) 中。AlphaProof Nexus 的工作原理是利用大語言模型生成數學證明，然後使用 Lean 證明助手檢查每個邏輯步驟的正確性。這種“代理循環” (agentic loop) 會不斷迭代建議的證明，直到它們通過形式驗證。這是對一直困擾企業採用的 AI 幻覺問題的直接回應。

這一進展使 AI 從生成聽起來合理的文本轉向產生可證明正確的邏輯。其影響遠超學術界，甚至威脅到智能合約審計、加密協議設計和零知識證明生成的經濟學——在這些領域，單一的邏輯錯誤就可能導致災難性的財務損失。

AI 驗證軍備競賽的新戰線

谷歌並非唯一一家利用 AI 攻克前沿數學的公司。OpenAI 最近宣布其通用模型之一通過發現一個新的反例，推翻了與埃爾多斯平面單位距離問題相關的一個核心猜想。雖然 DeepMind 的 AlphaProof Nexus 證明了數十年前的猜想是正確的，但 OpenAI 的模型發現了一個長期存在的數學信念中的缺陷。然而，這兩項成就都依賴於頂尖人類數學家來檢查、完善和解讀 AI 的輸出，這預示著人類與機器之間出現了新的分工。

不同的方法凸顯了一個關鍵趨勢：AI 行業正超越基準測試分數，轉向解決答案未知的公開問題。這種從精心策劃的測試向前沿研究的轉變，是證明 AI 作為科學和工程領域協作夥伴（而非僅僅是總結工具）價值的關鍵一步。核心挑戰仍然是信任，因為 AI 生成的幻覺仍在法庭和學術論文中出現。

從學術謎題到商業現實

將該技術商業化的競賽已經拉開帷幕。專注於基於能量推理模型的 AI 實驗室 Logical Intelligence 最近宣布，其智能體 Aleph 已解決 PutnamBench（高級數學定理證明基準）中 99.4% 的問題。這一表現顯著優於字節跳動及其他競爭對手的系統。

Logical Intelligence 已經在生產驗證工作流中部署 Aleph，包括與以太坊基金會的加密庫合作。這種從學術概念驗證到關鍵基礎設施生產級驗證的轉變表明，一個新市場正在興起。企業構建 AI 不僅是為了生成代碼，而是要在代碼進入可能產生現實後果的生產環境之前，證明其是正確的。

對於投資者而言，關鍵見解是：生成可證明正確輸出的能力是在任務關鍵型系統中擴展 AI 的基礎要求。這一轉變直接解決了當前生成模型的主要弱點：它們在壓力下容易產生臆造。雖然 Alphabet (GOOGL) 憑藉 AlphaProof Nexus 鞏固了其在 AI 研究領域的領導地位，但像 Logical Intelligence 這樣的專門公司的出現表明，“經驗證的 AI”的新基礎設施層正在構建中。對於任何承擔不起錯誤成本的行業（從金融到能源），這項技術都將是必不可少的。

本文僅供參考，不構成投資建議。