谷歌的一款人工智能剛剛解決了困擾人類數十年的數學難題,但真正的突破在於它如何解決 AI 價值數十億美元的幻覺問題。
谷歌的一款人工智能剛剛解決了困擾人類數十年的數學難題,但真正的突破在於它如何解決 AI 價值數十億美元的幻覺問題。

谷歌 DeepMind 的 AlphaProof Nexus 是一種將大語言模型與形式證明檢查相結合的 AI 系統,目前已解決 353 個公開埃爾多斯問題中的 9 個,以及《整數數列在線百科全書》中 492 個公開猜想中的 44 個。這一突破在每個問題上僅花費數百美元,展示了 AI 驅動的形式驗證新前沿,可能改變關鍵軟件的構建方式。
“各組織應謹慎對待未經驗證的‘感性編碼’ (vibe coding),因為 AI 系統正迅速進入正確性不再是可選項的環境中,”競爭對手 AI 實驗室 Logical Intelligence 的創始人兼 CEO 埃夫·博迪納 (Eve Bodina) 在最近的一份聲明中表示。“形式推理基準正變得越來越重要,因為它們迫使 AI 系統在數學強制執行正確性的環境中運行。”
研究結果記錄在 2026 年 5 月 21 日發表的 arXiv 預印本 (2605.22763v1) 中。AlphaProof Nexus 的工作原理是利用大語言模型生成數學證明,然後使用 Lean 證明助手檢查每個邏輯步驟的正確性。這種“代理循環” (agentic loop) 會不斷迭代建議的證明,直到它們通過形式驗證。這是對一直困擾企業採用的 AI 幻覺問題的直接回應。
這一進展使 AI 從生成聽起來合理的文本轉向產生可證明正確的邏輯。其影響遠超學術界,甚至威脅到智能合約審計、加密協議設計和零知識證明生成的經濟學——在這些領域,單一的邏輯錯誤就可能導致災難性的財務損失。
谷歌並非唯一一家利用 AI 攻克前沿數學的公司。OpenAI 最近宣布其通用模型之一通過發現一個新的反例,推翻了與埃爾多斯平面單位距離問題相關的一個核心猜想。雖然 DeepMind 的 AlphaProof Nexus 證明了數十年前的猜想是正確的,但 OpenAI 的模型發現了一個長期存在的數學信念中的缺陷。然而,這兩項成就都依賴於頂尖人類數學家來檢查、完善和解讀 AI 的輸出,這預示著人類與機器之間出現了新的分工。
不同的方法凸顯了一個關鍵趨勢:AI 行業正超越基準測試分數,轉向解決答案未知的公開問題。這種從精心策劃的測試向前沿研究的轉變,是證明 AI 作為科學和工程領域協作夥伴(而非僅僅是總結工具)價值的關鍵一步。核心挑戰仍然是信任,因為 AI 生成的幻覺仍在法庭和學術論文中出現。
將該技術商業化的競賽已經拉開帷幕。專注於基於能量推理模型的 AI 實驗室 Logical Intelligence 最近宣布,其智能體 Aleph 已解決 PutnamBench(高級數學定理證明基準)中 99.4% 的問題。這一表現顯著優於字節跳動及其他競爭對手的系統。
Logical Intelligence 已經在生產驗證工作流中部署 Aleph,包括與以太坊基金會的加密庫合作。這種從學術概念驗證到關鍵基礎設施生產級驗證的轉變表明,一個新市場正在興起。企業構建 AI 不僅是為了生成代碼,而是要在代碼進入可能產生現實後果的生產環境之前,證明其是正確的。
對於投資者而言,關鍵見解是:生成可證明正確輸出的能力是在任務關鍵型系統中擴展 AI 的基礎要求。這一轉變直接解決了當前生成模型的主要弱點:它們在壓力下容易產生臆造。雖然 Alphabet (GOOGL) 憑藉 AlphaProof Nexus 鞏固了其在 AI 研究領域的領導地位,但像 Logical Intelligence 這樣的專門公司的出現表明,“經驗證的 AI”的新基礎設施層正在構建中。對於任何承擔不起錯誤成本的行業(從金融到能源),這項技術都將是必不可少的。
本文僅供參考,不構成投資建議。