能力幻覺:人類科學家在複雜研究任務上仍以兩倍差距領先 AI 代理
《自然》期刊本月發布的一項重磅研究發現,目前最頂尖的 AI 代理在複雜、開放式科學任務上的表現,僅達博士級人類專家水準的一半——儘管科研人員以前所未有的速度採用 AI 工具。這項研究挑戰了 AI 代理已準備好自主推進科學研究的敘事,並對技術的真實現況提出了迫切質疑。
過去一年,科技業充斥著一套關於 AI 代理的敘事:它們即將取代人類研究員、自主推進科學計畫、把數十年的發現壓縮進短短幾個月。新創公司憑藉這個命題募集了數億美元;製藥公司圍繞它建構研發管線;投資人依據它為整個行業重新定價。
本月在《自然》期刊發表的一項重磅研究,還沒準備好為這套故事背書。
研究發現,目前最頂尖的 AI 代理,在複雜、開放式科學任務上的表現僅達博士級人類專家的約一半。這個差距不是四捨五入誤差,也不是下一輪模型更新就能彌補的暫時落後——研究人員認為,這是當前 AI 系統面對科學實踐核心工作時的結構性特徵:那種定義不清晰、步驟繁複、需要產生假說的工作。
研究中心的悖論在於:儘管存在如此差距,全球科研人員採用 AI 工具的速度,被研究者形容為前所未有。技術正在以遠超其能力所能支撐的速度被採用——這個動態既創造了機會,也帶來了重大風險。
研究實際測量了什麼
研究人員設計了一套專為評估 AI 科學任務表現而設計的基準測試——不是充斥在標準 AI 排行榜上的那種清晰、規格明確的問題,而是真實科研的本質:雜亂、反覆迭代、需要判斷力的工作。任務包括:為開放性問題設計新型實驗方法、識別現有研究的方法論缺陷、跨越不同文獻領域在新學科中整合發現,以及從模糊數據集中生成可驗證的假說。
這些任務刻意設計成讓具備深厚領域專業知識的人類研究員發光,也讓當前的 AI 系統歷來表現欠佳——儘管它們在標準化考試和程式設計基準上表現令人印象深刻。
結果毫不含糊:在所有任務的完整測試組合中,表現最佳的 AI 代理——來自 OpenAI、Anthropic 和 Google 的多個前沿模型均被納入評估——達到了在其專精領域工作的人類博士專家約 50% 的表現。在需要真正創新或在真實不確定性下進行多步推理的子任務中,差距更進一步擴大。
這並不意味著 AI 代理在科學情境中毫無用處。在明確定義的子任務上——文獻檢索、數據處理、結構化數據集的統計分析、分析管線的程式碼生成——AI 表現與人類相當甚至更優。問題在於,這些子任務只代表科學工作的一小部分。更高階的認知工作——確定哪個問題值得追問、識別異常何時是信號而非雜訊、設計一個真正能夠否定假說的實驗——仍然牢牢處於人類領域。
採用率超越能力曲線的悖論
《自然》研究的發現之所以尤其引人注目,在於它與採用數據的對比。根據《史丹佛 AI 指數 2026》,在研究論文中報告使用 AI 工具的比例在兩年內大約翻了一番,在生物學、化學和臨床醫學領域增長尤為爆炸性。AI 輔助文獻整合、假說篩選和數據分析,已成為各大學和製藥公司研究流程的標準環節。
換言之,採用曲線已超越能力曲線。研究人員將 AI 工具整合進工作流程的速度,預設了遠超工具目前實際擁有的可靠性和判斷力。作者將這種傾向稱為「能力幻覺」:把對超大訓練語料進行超高速模式匹配的系統,誤認為具備使人類專家判斷可靠的那種底層理解力。
科學中能力幻覺的實際後果不可輕視。過度信任 AI 文獻整合的研究員,可能錯過關鍵的反例;過度依賴 AI 假說生成設計的臨床試驗,可能追逐一個有缺陷的前提;建立在 AI 預測分子交互基礎上的新藥探索管線,可能在一個更審慎的人類專家早就質疑的候選化合物上浪費數年。
研究謹慎地避免危言聳聽。作者指出,AI 工具在作為助理而非自主代理的恰當使用下,確實可量化地加速研究。問題是,該領域目前的 AI 整合方式是否保留了讓這種加速安全有效的批判性監督。
當前模型能做什麼、不能做什麼
《自然》的研究結論,與一批日益增多的基準測試研究相吻合——這些研究描繪了一幅比炒作或反炒作都更細緻的前沿 AI 能力圖景。
當前模型——GPT-5.4、Claude Opus 4.7、Gemini 3.1 Pro——在結構化推理基準上取得了令人矚目的成果。它們能解決競賽級數學題、撰寫生產級程式碼、跨幾乎所有領域解釋複雜科學概念,並以令人印象深刻的精確度整合大量文本。在狹窄、定義明確的任務上,它們已在特定領域跨越人類專家的表現門檻。
但它們尚未展現出在真正新穎情境中表徵人類專家判斷的那種靈活、開放式、目標導向的推理能力。當問題結構本身不明朗時——當研究員需要決定的不只是如何解決一個問題,而是問題的框架本身是否正確——當前的 AI 系統就顯得捉襟見肘。
這個區別直接對應《自然》研究的發現:AI 代理在任務有明確規格時(清晰的評估指標、定義好的輸出格式、有界的領域)表現強勁;在任務規格不清晰時(開放式假說生成、在真實不確定性下做判斷、多週研究規劃)則表現疲軟。
對企業 AI 部署的啟示
這項研究的發現,其實際意義超出了學術科學的範疇。企業 AI 部署越來越依賴代理框架——自主或半自主的 AI 系統,為追求目標而採取一系列行動——用於與複雜研究在結構上具有相似性的任務:戰略分析、盡職調查、法律發現和軟體架構設計。
如果 AI 代理在與這些使用案例最類似的基準任務上,運行在人類專家表現的 50%,那麼企業部署中適當的人類監督程度,可能遠高於當前實踐所假設的水準。在這些領域中,代理錯誤的成本——一個被忽視的法律風險、一份有缺陷的競爭分析、一個造成多年技術債務的架構決策——可能相當可觀。
《史丹佛 AI 指數 2026》將這視為企業 AI 採用中的核心張力之一:部署速度正在超越適當監督框架的開發速度。隨著代理承擔更多具有重大後果的任務,缺乏對照真實世界專家表現進行系統評估,正在成為組織層面的責任。
這對「AI 科學家」競賽意味著什麼
《自然》的研究在一個特別尖銳的時間節點發表,因為多家「AI 科學家」新創公司正在同時湧現——包括本週剛融資五億美元的 Recursive Superintelligence,其使命正是完全自動化前沿 AI 研究。從當前基線到這個願景所隱含的能力,差距不可謂不大。
但這個差距不一定是永久的。研究人員承認,AI 代理表現在連續幾代模型中已有可量化的改進,架構層面的進步——更長的上下文視窗、更好的工具使用、更強的規劃能力——已在特定方向上彌補了部分性能缺口。50% 這個數字是 2026 年 4 月技術所處位置的快照,而非對 2027 年或 2028 年的預測。
但這項研究在呼籲謙遜。AI 代理已準備好運行實驗室的敘事——儘管在商業上引人入勝、在戰略上催人奮進——尚未建立在現有最佳證據實際顯示的基礎之上。科學靠的是直視令人不舒服的數據來推進。在 AI 代理能力這個問題上,那份令人不舒服的數據,現在就在眼前。