跳至主要內容
FAQ

能力幻覺:人類科學家在複雜研究任務上仍以兩倍差距領先 AI 代理

《自然》期刊本月發布的一項重磅研究發現,目前最頂尖的 AI 代理在複雜、開放式科學任務上的表現,僅達博士級人類專家水準的一半——儘管科研人員以前所未有的速度採用 AI 工具。這項研究挑戰了 AI 代理已準備好自主推進科學研究的敘事,並對技術的真實現況提出了迫切質疑。

1 分鐘閱讀

過去一年,科技業充斥著一套關於 AI 代理的敘事:它們即將取代人類研究員、自主推進科學計畫、把數十年的發現壓縮進短短幾個月。新創公司憑藉這個命題募集了數億美元;製藥公司圍繞它建構研發管線;投資人依據它為整個行業重新定價。

本月在《自然》期刊發表的一項重磅研究,還沒準備好為這套故事背書。

研究發現,目前最頂尖的 AI 代理,在複雜、開放式科學任務上的表現僅達博士級人類專家的約一半。這個差距不是四捨五入誤差,也不是下一輪模型更新就能彌補的暫時落後——研究人員認為,這是當前 AI 系統面對科學實踐核心工作時的結構性特徵:那種定義不清晰、步驟繁複、需要產生假說的工作。

研究中心的悖論在於:儘管存在如此差距,全球科研人員採用 AI 工具的速度,被研究者形容為前所未有。技術正在以遠超其能力所能支撐的速度被採用——這個動態既創造了機會,也帶來了重大風險。

研究實際測量了什麼

研究人員設計了一套專為評估 AI 科學任務表現而設計的基準測試——不是充斥在標準 AI 排行榜上的那種清晰、規格明確的問題,而是真實科研的本質:雜亂、反覆迭代、需要判斷力的工作。任務包括:為開放性問題設計新型實驗方法、識別現有研究的方法論缺陷、跨越不同文獻領域在新學科中整合發現,以及從模糊數據集中生成可驗證的假說。

這些任務刻意設計成讓具備深厚領域專業知識的人類研究員發光,也讓當前的 AI 系統歷來表現欠佳——儘管它們在標準化考試和程式設計基準上表現令人印象深刻。

結果毫不含糊:在所有任務的完整測試組合中,表現最佳的 AI 代理——來自 OpenAI、Anthropic 和 Google 的多個前沿模型均被納入評估——達到了在其專精領域工作的人類博士專家約 50% 的表現。在需要真正創新或在真實不確定性下進行多步推理的子任務中,差距更進一步擴大。

這並不意味著 AI 代理在科學情境中毫無用處。在明確定義的子任務上——文獻檢索、數據處理、結構化數據集的統計分析、分析管線的程式碼生成——AI 表現與人類相當甚至更優。問題在於,這些子任務只代表科學工作的一小部分。更高階的認知工作——確定哪個問題值得追問、識別異常何時是信號而非雜訊、設計一個真正能夠否定假說的實驗——仍然牢牢處於人類領域。

採用率超越能力曲線的悖論

《自然》研究的發現之所以尤其引人注目,在於它與採用數據的對比。根據《史丹佛 AI 指數 2026》,在研究論文中報告使用 AI 工具的比例在兩年內大約翻了一番,在生物學、化學和臨床醫學領域增長尤為爆炸性。AI 輔助文獻整合、假說篩選和數據分析,已成為各大學和製藥公司研究流程的標準環節。

換言之,採用曲線已超越能力曲線。研究人員將 AI 工具整合進工作流程的速度,預設了遠超工具目前實際擁有的可靠性和判斷力。作者將這種傾向稱為「能力幻覺」:把對超大訓練語料進行超高速模式匹配的系統,誤認為具備使人類專家判斷可靠的那種底層理解力。

科學中能力幻覺的實際後果不可輕視。過度信任 AI 文獻整合的研究員,可能錯過關鍵的反例;過度依賴 AI 假說生成設計的臨床試驗,可能追逐一個有缺陷的前提;建立在 AI 預測分子交互基礎上的新藥探索管線,可能在一個更審慎的人類專家早就質疑的候選化合物上浪費數年。

研究謹慎地避免危言聳聽。作者指出,AI 工具在作為助理而非自主代理的恰當使用下,確實可量化地加速研究。問題是,該領域目前的 AI 整合方式是否保留了讓這種加速安全有效的批判性監督。

當前模型能做什麼、不能做什麼

《自然》的研究結論,與一批日益增多的基準測試研究相吻合——這些研究描繪了一幅比炒作或反炒作都更細緻的前沿 AI 能力圖景。

當前模型——GPT-5.4、Claude Opus 4.7、Gemini 3.1 Pro——在結構化推理基準上取得了令人矚目的成果。它們能解決競賽級數學題、撰寫生產級程式碼、跨幾乎所有領域解釋複雜科學概念,並以令人印象深刻的精確度整合大量文本。在狹窄、定義明確的任務上,它們已在特定領域跨越人類專家的表現門檻。

但它們尚未展現出在真正新穎情境中表徵人類專家判斷的那種靈活、開放式、目標導向的推理能力。當問題結構本身不明朗時——當研究員需要決定的不只是如何解決一個問題,而是問題的框架本身是否正確——當前的 AI 系統就顯得捉襟見肘。

這個區別直接對應《自然》研究的發現:AI 代理在任務有明確規格時(清晰的評估指標、定義好的輸出格式、有界的領域)表現強勁;在任務規格不清晰時(開放式假說生成、在真實不確定性下做判斷、多週研究規劃)則表現疲軟。

對企業 AI 部署的啟示

這項研究的發現,其實際意義超出了學術科學的範疇。企業 AI 部署越來越依賴代理框架——自主或半自主的 AI 系統,為追求目標而採取一系列行動——用於與複雜研究在結構上具有相似性的任務:戰略分析、盡職調查、法律發現和軟體架構設計。

如果 AI 代理在與這些使用案例最類似的基準任務上,運行在人類專家表現的 50%,那麼企業部署中適當的人類監督程度,可能遠高於當前實踐所假設的水準。在這些領域中,代理錯誤的成本——一個被忽視的法律風險、一份有缺陷的競爭分析、一個造成多年技術債務的架構決策——可能相當可觀。

《史丹佛 AI 指數 2026》將這視為企業 AI 採用中的核心張力之一:部署速度正在超越適當監督框架的開發速度。隨著代理承擔更多具有重大後果的任務,缺乏對照真實世界專家表現進行系統評估,正在成為組織層面的責任。

這對「AI 科學家」競賽意味著什麼

《自然》的研究在一個特別尖銳的時間節點發表,因為多家「AI 科學家」新創公司正在同時湧現——包括本週剛融資五億美元的 Recursive Superintelligence,其使命正是完全自動化前沿 AI 研究。從當前基線到這個願景所隱含的能力,差距不可謂不大。

但這個差距不一定是永久的。研究人員承認,AI 代理表現在連續幾代模型中已有可量化的改進,架構層面的進步——更長的上下文視窗、更好的工具使用、更強的規劃能力——已在特定方向上彌補了部分性能缺口。50% 這個數字是 2026 年 4 月技術所處位置的快照,而非對 2027 年或 2028 年的預測。

但這項研究在呼籲謙遜。AI 代理已準備好運行實驗室的敘事——儘管在商業上引人入勝、在戰略上催人奮進——尚未建立在現有最佳證據實際顯示的基礎之上。科學靠的是直視令人不舒服的數據來推進。在 AI 代理能力這個問題上,那份令人不舒服的數據,現在就在眼前。

AI 代理 科學研究 基準測試 AI 能力 史丹佛 AI 指數 Nature AI 局限
分享

相關報導

MIT 科技評論在 EmTech AI 2026 首次發布「AI 當下十大要事」榜單

MIT 科技評論今日於在 MIT 校園舉辦的 EmTech AI 2026 年會上,發布了一份全新的年度清單——「AI 當下十大要事」,與既有的「十大突破性技術」榜單並列。新清單的誕生源於 AI 候選項目多到無法在單一榜單中容納,涵蓋 AI 伴侶、機制可解釋性、生成式程式設計、超大規模資料中心等十個方向。

1 分鐘閱讀