Google DeepMind 的 AlphaProof Nexus:花幾百美元破解困擾數學界數十年的 Erdős 難題
Google DeepMind 於 5 月 21 日發表重磅 arXiv 論文,旗下 AlphaProof Nexus 代理系統結合 Gemini 與 Lean 形式驗證,自主證明 9 道 Erdős 未解問題與 44 個 OEIS 猜想,每題推理成本僅需幾百美元,徹底改寫 AI 輔助數學研究的想像邊界。
上週 OpenAI 宣布其 AI 系統破解了一道離散幾何領域的 Erdős 猜想,已讓數學界為之振奮。幾天後,Google DeepMind 端出了更驚人的成果:一套名為 AlphaProof Nexus 的新系統,自主解決了 Erdős 著名問題清單上的 9 道未解難題——其中 2 道已沉睡 56 年無人能解——同時證明了線上整數數列百科全書(OEIS)中的 44 個猜想。更令人咋舌的是,每道題的計算成本不過幾百美元。
這份於 2026 年 5 月 21 日掛上 arXiv 的論文(編號 2605.22763v1),代表了迄今為止 AI 對前沿數學貢獻原創性研究最全面的一次展示——不只是驗證人類的證明,而是自行發現它們。
AlphaProof Nexus 如何運作
AlphaProof Nexus 的核心,是將兩種截然互補的技術結合成一個代理系統:大型語言模型的創造力與模式識別能力,加上 Lean 形式證明語言的嚴格可驗性。Lean 由微軟研究院開發,是目前學術界最主流的定理驗證工具之一。
整個系統在閉環中運作。語言模型骨幹——Gemini 3.1 Pro——以自然語言和偽代碼提出證明策略,這些策略隨後被翻譯成 Lean 的形式語法,由驗證器自動檢查。一旦邏輯有破綻,立刻遭到拒絕;任何「幻覺式」的跳躍推論都無法矇混過關。系統根據驗證器的回饋不斷迭代,逐步精煉策略。
讓 AlphaProof Nexus 脫穎而出的,是 DeepMind 所稱的「演化搜尋」層。這個機制並非執著於單一證明路徑,而是同時維護一個「部分完成的證明草稿族群」,以類似西洋棋 Elo 評分的方式對各條路徑打分,優先發展最有潛力的方向,剪枝死路。即使解空間龐大,系統也能有效率地探索。
第三個元件是 AlphaProof——DeepMind 於 2024 年推出、以強化學習驅動的奧數定理證明器——作為專用子代理加入。當主系統識別出一個邊界清晰的子目標,便呼叫 AlphaProof 集中火力攻破,將演化搜尋的廣度與強化學習的深度結合。
論文中絕大多數突破,都來自啟用全部三個元件的「Agent D」完整配置。
具體解決了哪些問題
Erdős 生前習慣為自己提出的未解問題懸賞,金額從 25 美元到 1 萬美元不等。他的問題清單在 1996 年辭世後持續被維護,成為數學難度的標準參照。
AlphaProof Nexus 挑戰了清單上的 353 道未解問題,解決了 9 道,命中率約 2.5%。然而研究者指出,系統攻克的並非最容易的那幾題。其中:
第 12(i) 題由 Erdős 與 Sárközy 於 1970 年提出,已沉睡 56 年。問題問的是:是否存在一個同時滿足特定密度條件與整除限制的無窮集合?系統給出了一個以數論論證構建的形式化存在性證明,評審學者稱其「確實具有相當的數學深度」。
另一道同樣封塵 56 年的問題來自極值圖論,追問某類迴避特定子圖模式的圖的最大密度上界。AlphaProof Nexus 的證明進一步收緊了已知的界值。
在 OEIS 猜想方面,系統共處理 492 道開放問題——大多是十餘年前登錄、始終缺乏封閉形式或結構性解釋的整數數列猜想——並正式證明了其中 44 道。
所有證明結果,包括可機器執行的 Lean 格式與人類可讀的自然語言版本,均已發布於 DeepMind 維護的公開 GitHub 倉庫。
數學發現的成本革命
這篇論文最令人震驚的,或許不是解決了哪些問題,而是解決它們的代價。DeepMind 報告,每道問題的推理成本大約在 100 到 500 美元之間——不及一名研究生一週的生活費。
這從根本上動搖了數學研究的一個基本經濟假設:數學發現過去受限於人類注意力的稀缺——頂尖研究者的數量有限、工作時間有限、直覺的積累需要數十年。AlphaProof Nexus 暗示,在不遠的將來,AI 系統可以攝取整份未解問題清單,在普通雲端算力上跑幾個小時,批量回傳一批經過形式驗證的證明。
劍橋大學菲爾茲獎得主 Timothy Gowers 教授在獲得提前知會後表示:「關鍵字是『驗證』。我們談的不是可能含有漏洞的似然論證——這些是達到 Lean 函式庫同等標準的機器驗證證明。」他補充,雖然 353 題中解決了 9 題比例仍小,「但在真正困難的問題上命中率非零,這改變了整個討論框架。」
兩週數學大戰的背景
DeepMind 的成果,出現在觀察者所稱的 OpenAI 與 Google 之間「兩週數學大戰」的尾聲。5 月 14 日,OpenAI 宣布其內部推理系統解決了離散幾何領域一個與 Erdős–Ko–Rado 定理族相關的猜想,以一個人類組合數學家未曾想到的初等論證完成了證明。
AlphaProof Nexus 論文在引言中直接引用了 OpenAI 的結果,並在規模(9 道 vs. 1 道)和形式驗證保證的強度上都走得更遠。一位評閱過兩篇論文的學術數學家說:「OpenAI 的結果令人印象深刻,但那是仍需同行評審的自然語言論證。AlphaProof Nexus 輸出的是 Lean 證明——正確性毫無模糊空間。」
DeepMind 刻意避免將此框架為競爭。論文結語指出「多個團隊獨立以 AI 輔助攻克未解問題,對整個研究社群只有好處」,並呼籲建立開放基準以標準化評估。
下一步
根據論文,系統下一步的目標是挑戰更難的問題——例如千禧年大獎問題——並改善對尚未有 Lean 形式表示的新穎數學對象的處理能力。
更長遠而言,DeepMind 正在探索將其與 Co-Scientist 系統整合的可能。Co-Scientist 是 2026 年 5 月發布的多代理研究助手,能在生命科學等領域生成並辯論科學假說。若兩者結合,形成一個既能提出全新數學結構、又能自動形式化驗證相關定理的系統,人機數學協作的邊界將再次被重新定義。
DeepMind 一名研究員的話或許最能描述當下的轉折點:「我們不是在取代數學家。我們是在給他們提供一位非常便宜、永遠不會放棄子目標的助手。」數學社群正在消化這樣一個事實:一個花了約 500 美元計算費的系統,終結了超過半個世紀無人能解的謎。