Google DeepMind 的 AlphaProof Nexus：花幾百美元破解困擾數學界數十年的 Erdős 難題

Google DeepMind 於 5 月 21 日發表重磅 arXiv 論文，旗下 AlphaProof Nexus 代理系統結合 Gemini 與 Lean 形式驗證，自主證明 9 道 Erdős 未解問題與 44 個 OEIS 猜想，每題推理成本僅需幾百美元，徹底改寫 AI 輔助數學研究的想像邊界。

2026年5月25日 1 分鐘閱讀

上週 OpenAI 宣布其 AI 系統破解了一道離散幾何領域的 Erdős 猜想，已讓數學界為之振奮。幾天後，Google DeepMind 端出了更驚人的成果：一套名為 AlphaProof Nexus 的新系統，自主解決了 Erdős 著名問題清單上的 9 道未解難題——其中 2 道已沉睡 56 年無人能解——同時證明了線上整數數列百科全書（OEIS）中的 44 個猜想。更令人咋舌的是，每道題的計算成本不過幾百美元。

這份於 2026 年 5 月 21 日掛上 arXiv 的論文（編號 2605.22763v1），代表了迄今為止 AI 對前沿數學貢獻原創性研究最全面的一次展示——不只是驗證人類的證明，而是自行發現它們。

AlphaProof Nexus 如何運作

AlphaProof Nexus 的核心，是將兩種截然互補的技術結合成一個代理系統：大型語言模型的創造力與模式識別能力，加上 Lean 形式證明語言的嚴格可驗性。Lean 由微軟研究院開發，是目前學術界最主流的定理驗證工具之一。

整個系統在閉環中運作。語言模型骨幹——Gemini 3.1 Pro——以自然語言和偽代碼提出證明策略，這些策略隨後被翻譯成 Lean 的形式語法，由驗證器自動檢查。一旦邏輯有破綻，立刻遭到拒絕；任何「幻覺式」的跳躍推論都無法矇混過關。系統根據驗證器的回饋不斷迭代，逐步精煉策略。

讓 AlphaProof Nexus 脫穎而出的，是 DeepMind 所稱的「演化搜尋」層。這個機制並非執著於單一證明路徑，而是同時維護一個「部分完成的證明草稿族群」，以類似西洋棋 Elo 評分的方式對各條路徑打分，優先發展最有潛力的方向，剪枝死路。即使解空間龐大，系統也能有效率地探索。

第三個元件是 AlphaProof——DeepMind 於 2024 年推出、以強化學習驅動的奧數定理證明器——作為專用子代理加入。當主系統識別出一個邊界清晰的子目標，便呼叫 AlphaProof 集中火力攻破，將演化搜尋的廣度與強化學習的深度結合。

論文中絕大多數突破，都來自啟用全部三個元件的「Agent D」完整配置。

具體解決了哪些問題

Erdős 生前習慣為自己提出的未解問題懸賞，金額從 25 美元到 1 萬美元不等。他的問題清單在 1996 年辭世後持續被維護，成為數學難度的標準參照。

AlphaProof Nexus 挑戰了清單上的 353 道未解問題，解決了 9 道，命中率約 2.5%。然而研究者指出，系統攻克的並非最容易的那幾題。其中：

第 12(i) 題由 Erdős 與 Sárközy 於 1970 年提出，已沉睡 56 年。問題問的是：是否存在一個同時滿足特定密度條件與整除限制的無窮集合？系統給出了一個以數論論證構建的形式化存在性證明，評審學者稱其「確實具有相當的數學深度」。

另一道同樣封塵 56 年的問題來自極值圖論，追問某類迴避特定子圖模式的圖的最大密度上界。AlphaProof Nexus 的證明進一步收緊了已知的界值。

在 OEIS 猜想方面，系統共處理 492 道開放問題——大多是十餘年前登錄、始終缺乏封閉形式或結構性解釋的整數數列猜想——並正式證明了其中 44 道。

所有證明結果，包括可機器執行的 Lean 格式與人類可讀的自然語言版本，均已發布於 DeepMind 維護的公開 GitHub 倉庫。

數學發現的成本革命

這篇論文最令人震驚的，或許不是解決了哪些問題，而是解決它們的代價。DeepMind 報告，每道問題的推理成本大約在 100 到 500 美元之間——不及一名研究生一週的生活費。

這從根本上動搖了數學研究的一個基本經濟假設：數學發現過去受限於人類注意力的稀缺——頂尖研究者的數量有限、工作時間有限、直覺的積累需要數十年。AlphaProof Nexus 暗示，在不遠的將來，AI 系統可以攝取整份未解問題清單，在普通雲端算力上跑幾個小時，批量回傳一批經過形式驗證的證明。

劍橋大學菲爾茲獎得主 Timothy Gowers 教授在獲得提前知會後表示：「關鍵字是『驗證』。我們談的不是可能含有漏洞的似然論證——這些是達到 Lean 函式庫同等標準的機器驗證證明。」他補充，雖然 353 題中解決了 9 題比例仍小，「但在真正困難的問題上命中率非零，這改變了整個討論框架。」

兩週數學大戰的背景

DeepMind 的成果，出現在觀察者所稱的 OpenAI 與 Google 之間「兩週數學大戰」的尾聲。5 月 14 日，OpenAI 宣布其內部推理系統解決了離散幾何領域一個與 Erdős–Ko–Rado 定理族相關的猜想，以一個人類組合數學家未曾想到的初等論證完成了證明。

AlphaProof Nexus 論文在引言中直接引用了 OpenAI 的結果，並在規模（9 道 vs. 1 道）和形式驗證保證的強度上都走得更遠。一位評閱過兩篇論文的學術數學家說：「OpenAI 的結果令人印象深刻，但那是仍需同行評審的自然語言論證。AlphaProof Nexus 輸出的是 Lean 證明——正確性毫無模糊空間。」

DeepMind 刻意避免將此框架為競爭。論文結語指出「多個團隊獨立以 AI 輔助攻克未解問題，對整個研究社群只有好處」，並呼籲建立開放基準以標準化評估。

下一步

根據論文，系統下一步的目標是挑戰更難的問題——例如千禧年大獎問題——並改善對尚未有 Lean 形式表示的新穎數學對象的處理能力。

更長遠而言，DeepMind 正在探索將其與 Co-Scientist 系統整合的可能。Co-Scientist 是 2026 年 5 月發布的多代理研究助手，能在生命科學等領域生成並辯論科學假說。若兩者結合，形成一個既能提出全新數學結構、又能自動形式化驗證相關定理的系統，人機數學協作的邊界將再次被重新定義。

DeepMind 一名研究員的話或許最能描述當下的轉折點：「我們不是在取代數學家。我們是在給他們提供一位非常便宜、永遠不會放棄子目標的助手。」數學社群正在消化這樣一個事實：一個花了約 500 美元計算費的系統，終結了超過半個世紀無人能解的謎。

資料來源

Google DeepMind AlphaProof 數學突破形式驗證 Lean Erdős AI 研究

Google DeepMind 的 AlphaProof Nexus：花幾百美元破解困擾數學界數十年的 Erdős 難題

AlphaProof Nexus 如何運作

具體解決了哪些問題

數學發現的成本革命

兩週數學大戰的背景

下一步

資料來源

相關報導

Google I/O 2026：Gemini 3.5 正式發布、Project Astra 全面上線、Android XR 眼鏡亮相

OpenAI 推理模型破解 80 年懸案：Erdős 離散幾何猜想遭推翻