跳至主要內容
FAQ

AlphaGo 之父獲 11 億美元天使輪融資,以強化學習追尋超人工智慧

DeepMind 研究員 David Silver 打造了 AlphaGo、AlphaZero 和 AlphaProof,如今他創辦 AI 實驗室 Ineffable Intelligence,完成了破紀錄的 11 億美元種子輪融資,這家僅成立數月的公司估值已達 51 億美元。投資方包括紅杉資本、Lightspeed、Nvidia 和 Google,Silver 押注:讓 AI 純粹從自身經驗中學習的強化學習,正是通往超級智慧的道路。

1 分鐘閱讀

在這個競相邁向超級智慧的 AI 實驗室浪潮中,David Silver 或許擁有所有創辦人中最有說服力的履歷。這位在 Google DeepMind 領導強化學習研究團隊長達十年的研究員,先後打造了 AlphaGo、AlphaZero、AlphaStar 和 AlphaProof,分別征服了圍棋、西洋棋、星際爭霸 II 和數學奧林匹亞競賽——如今他創辦了自己的實驗室,並完成了歐洲史上規模最大的種子輪融資。

Silver 在 2025 年底創辦的倫敦 AI 實驗室 Ineffable Intelligence 於 4 月 27 日宣布完成 11 億美元種子輪融資,投後估值 51 億美元。本輪由紅杉資本與 Lightspeed Venture Partners 聯合領投,Nvidia、DST Global、Index Ventures、Google 以及英國主權 AI 基金等也參與其中。對於一家成立僅數月的公司而言,這些數字幾乎前所未有。

核心命題:強化學習是通往人工超智慧的路徑

Ineffable Intelligence 的學術根基是 Silver 畢生研究的直接延伸,也是對當今前沿 AI 開發主流範式的一次鮮明偏離。

現今最先進的大型語言模型——包括 GPT-5 和 Claude 3——主要透過監督式學習訓練:以海量人類生成的文字、程式碼和影像資料集為基礎,教導模型什麼樣的輸出是好的。這個方法產生了非凡的成果,但有一個根本性的天花板:模型的知識與能力,終究受限於其所學習的人類資料。

Silver 在 DeepMind 磨練十年得出的觀點是,對於衝向超人類智慧的最後一哩路而言,這個天花板是錯誤的架構。他在 2016 年的 AlphaGo 突破奠基於一個不同的原則:強化學習,即讓智能體透過與環境互動、從成功動作中獲得獎勵、不斷迭代策略來學習,完全不需要人類示範正確的棋步。

2017 年的 AlphaZero 走得更遠——從零開始,只給定西洋棋、圍棋和將棋的規則,與自己對弈,幾天之內便超越了人類有史以來訓練出的所有棋手和棋程式。過程中從未使用過任何人類棋局資料。系統自行發現了人類棋手從未想到的全新策略。

Ineffable Intelligence 的目標是將這個方法從遊戲推廣到整個人類知識領域。Silver 描述這個目標為打造「一個能從自身經驗中發現一切知識的超級學習者,從基本的運動技能到深刻的智識突破,皆由自身習得」。公司的公開使命是「與超級智慧首次接觸」。

為何此時、為何 11 億美元

這輪融資的規模,反映了創辦團隊的公信力和尖端強化學習研究的特殊資本需求。強化學習訓練的計算成本與監督式學習有所不同:因為智能體必須透過互動自行產生訓練資料,在前沿規模下進行精密 RL 訓練所需的算力極為龐大。這 11 億美元種子輪,在相當程度上是對基礎設施投資的承諾——讓 Ineffable Intelligence 能夠以足以與全球頂尖 AI 實驗室競爭的規模,進行認真的 RL 實驗。

Silver 的學術地位讓投資決策易於辯護。他擁有超過 30 萬次學術引用,是機器學習史上被引用最多的研究者之一。他在 DeepMind 的系統不只是贏得了比賽——而是一再解決了專家認為距離機器達成還需數十年的問題。AlphaGo 在 2016 年擊敗世界冠軍李世乭,彼時大多數 AI 研究者預測這還需要十年。AlphaProof 在 2024 年國際數學奧林匹亞上的表現,同樣超前於業界預期。

投資人陣容進一步強化了這個信號。紅杉資本和 Lightspeed 是全球最穩定支持定義性 AI 實驗室的兩家風投;聯合領投種子輪,是對技術命題和商業潛力的強力背書。Nvidia 的參與有其獨特意涵:這家晶片巨頭通常不會在沒有預見到龐大訓練基礎設施需求的情況下參與種子輪。Google 的投資則製造了微妙的化學反應——Silver 曾服務十年的前東家,如今直接持有這個它所開創的技術路徑的利益。

強化學習的復興

Ineffable Intelligence 並不是唯一押注強化學習通向前沿 AI 的機構。OpenAI 的 o3 和 o4 系列在推理任務上廣泛使用強化學習;Anthropic 和 Google DeepMind 也在特定能力領域大舉投入 RL 研究。

讓 Ineffable Intelligence 與眾不同的——至少在公開宣示的雄心上——是其範疇的廣度:不是 RL 應用於特定領域,而是以 RL 作為在不依賴人類資料的情況下、跨越所有知識領域自主學習的通用架構。這是一個難度更高的問題。人類資料是一條方便的捷徑,濃縮了數千年的人類推理與知識;移除這條捷徑,意味著系統必須完全透過試錯,從零建立對世界的內部表徵,所需規模甚至讓當前最大的前沿訓練都相形見絀。

學術界對這個方法究竟會在主流 Scaling + RLHF 路線之前、之後還是並行到達 AGI,仍有爭議。但 Silver 的職業生涯至少說明了一點:每當他宣稱 RL 可以做到某事,懷疑者預估的時間表往往比實際更悲觀。

倫敦的 AI 時刻

11 億美元的融資金額,是公司自述的歐洲歷史上最大種子輪,同時也折射出一個更廣泛的趨勢:倫敦已成為舊金山以外前沿 AI 研究的重要據點,DeepMind 和 Stability AI 的核心創辦團隊都在此地。

英國主權 AI 基金的參與尤其值得關注——政府支持的國內 AI 實驗室投資,是政策宣示,也是財務布局。在全球 AI 競賽的脈絡下,英國政府正在直接押注:本土的強化學習專業技術,有可能孕育出具有國家戰略意義的 AI 系統。

Silver 尚未公布產品路線圖或商業化時間表。實驗室目前處於純研究模式——這正是 11 億美元種子輪所要守護的空間。目前唯一公開的交付物,是「與超級智慧首次接觸」。無論 Ineffable Intelligence 最終是否達成這個目標,押注強化學習——過去十年 AI 最令人驚豔的突破的引擎——前方仍有其最重要的成果等待,這個信念值得認真對待。

Ineffable Intelligence David Silver DeepMind 強化學習 超人工智慧 紅杉資本 種子融資 AlphaGo
分享

相關報導