史丹佛 AI 指數 2026：能力飛速躍進，透明度卻全面崩潰

史丹佛 HAI 第九份年度 AI 指數報告顯示，AI 基準測試表現正急速逼近人類水準，中美模型差距縮窄至僅 2.7%，AI 普及速度超越有史以來任何一項科技——然而 AI 公司揭露自家系統運作方式的意願卻降至歷史低點。

2026年4月16日 1 分鐘閱讀

史丹佛大學人本 AI 研究所（HAI）於 2026 年 4 月 13 日發布第九份年度 AI 指數報告，所呈現的景象令人既振奮又深感不安。AI 系統在幾乎所有測試領域都以驚人速度逼近人類水準，然而打造這些系統的機構卻同步對外界封閉資訊。這份報告在業界掀起軒然大波，將長期積累的矛盾一次推向檯面。

基準測試天花板幾乎已被突破

光是程式碼能力的數字，就足以說明一切。在 SWE-bench Verified——目前公認最能評估 AI 是否能解決真實 GitHub issue 的基準——分數在短短一年內從約 60% 人類基準線躍升至接近 100%。一年前在孤立任務上勉強超越資深工程師的模型，現在已能全面處理這個基準所涵蓋的軟體維護工作。

飽和現象不止於程式碼。Anthropic、Google 和 OpenAI 等前沿模型，已在博士級科學題目、多模態推理和競賽級數學上達到或超越人類基準線。研究人員現在面臨的難題，是如何快速設計出新的基準測試以跟上系統進化的速度——這個問題在 2024 年前還被視為過於學術、遙不可及。

中美差距實質上已幾乎消弭

報告中地緣政治色彩最濃厚的發現，是中美 AI 模型間的競爭差距。在涵蓋法律、醫學、數學、科學等廣泛學術知識的 MMLU 基準上，美中領先模型之間的差距從 2023 年的 17.5 個百分點縮小至 2024 年底的僅 0.3 個百分點。

在由數百萬次人類對比投票決定排名的 Chatbot Arena 排行榜上，截至 2026 年 3 月，美國的優勢僅剩 2.7%：Anthropic 的 Claude Opus 4.6 拿下 1,503 分，字節跳動的 Dola-Seed Preview 緊追在後，得分為 1,464。報告收錄的最新快照顯示，至 4 月 9 日，差距已再度縮小——Claude Opus 4.6 Thinking 以 1,548 分領先，Z.ai 的 GLM-5.1 以 1,530 分緊隨其後。

這波追趕主要由中國蓬勃發展的開源 AI 社群所驅動。儘管美國私人 AI 投資額是中國的 23 倍——2025 年美國達 2,859 億美元，中國僅 124 億美元——中國實驗室已證明可透過不同路徑達到前沿水準，包括開放模型權重讓社群快速迭代。報告措辭謹慎，未宣告兩國達到全面對等，但趨勢線已讓美國的長期主導地位遠非板上釘釘。

普及速度超越歷史上任何一項科技

指數記錄了幾乎難以置信的採用率。受訪產業中，AI 的組織部署率已達 88%。在大學校園，五分之四的學生將生成式 AI 工具融入日常工作流程。就全體人口而言，生成式 AI 在主流化後短短三年內，已被 53% 的成年人採用——超越個人電腦和網際網路達到同樣里程碑所需的時間。

經濟後果正逐漸具體成形。美國 2025 年對 AI 企業的私人投資達 2,859 億美元，全年催生 1,953 家新獲投 AI 新創公司，是排名第二名國家的十倍以上。不論前沿競爭態勢如何演變，美國在商業化層面的主導地位依然穩固。

透明度危機在最糟糕的時刻爆發

報告最令人憂慮的部分，是記錄了一場同步發生的資訊崩解——研究人員、政策制定者和公眾所能獲得的前沿 AI 系統運作資訊，正在快速萎縮。

基礎模型透明度指數（Foundation Model Transparency Index）為各公司在訓練資料、運算需求、能力、限制和使用政策方面的公開程度打分，今年平均分從去年的 58 分驟降至 40 分。降幅分配極不均衡：能力最強、部署最廣的模型，恰恰是揭露資訊最少的那些。

具體案例令人難以辯駁。Google、Anthropic 和 OpenAI 都已放棄公開報告最新模型的資料集規模和訓練時長——這些資訊在 2022 年前都是業界慣例。在 2025 年發布的 95 個最受矚目的模型中，80 個未附上訓練程式碼。可重現性——科學進步的基石——已被競爭保密所凌駕。

這種不透明，恰好發生在 AI 系統被大規模導入醫療、金融、招募和公共服務等關鍵決策的時刻。AI 事故資料庫所記錄的 AI 事故（定義為「現實世界中 AI 部署所造成的傷害或險些釀成傷害的情況」）在 2025 年達到 362 起，高於前一年的 233 起。當系統越來越能幹、卻越來越難被看透，問責機制的前景正在黯淡。

指數無法衡量的那些事

史丹佛研究團隊坦承資料集的侷限。能力基準測試只能捕捉模型在結構化測試條件下的表現，無法反映它們在混亂現實環境中的實際效果。中國的投資數據很可能低估實際支出，因為通過不透明管道運作的政府引導基金難以納入統計。採用率數據則只測量使用情況，而非創造的價值——這個區別在技術走向成熟、企業被迫以可衡量的回報來justify AI支出時，將越來越重要。

儘管如此，方向性訊號已足夠清晰：AI 表現的提升速度超出實驗室以外所有人的預期，競爭格局比美國政策制定者所設想的更加擁擠，而名義上負責監督 AI 發展的機構，所掌握的相關資訊卻比兩年前更少。

2026 年 AI 指數不是一份允許舒適結論的文件。它是一組數據，要求人們做出艱難抉擇——關於透明度標準、競爭戰略，以及如何看待一種日益能夠在世界中採取行動、卻缺乏充分問責機制的技術。這些抉擇不是指數本身所能做出的。但它已讓繼續迴避變得更加困難。

資料來源

Stanford HAI AI 指數基準測試中美競爭透明度 AI 普及投資