史丹佛 AI 指數 2026:能力飛速躍進,透明度卻全面崩潰
史丹佛 HAI 第九份年度 AI 指數報告顯示,AI 基準測試表現正急速逼近人類水準,中美模型差距縮窄至僅 2.7%,AI 普及速度超越有史以來任何一項科技——然而 AI 公司揭露自家系統運作方式的意願卻降至歷史低點。
史丹佛大學人本 AI 研究所(HAI)於 2026 年 4 月 13 日發布第九份年度 AI 指數報告,所呈現的景象令人既振奮又深感不安。AI 系統在幾乎所有測試領域都以驚人速度逼近人類水準,然而打造這些系統的機構卻同步對外界封閉資訊。這份報告在業界掀起軒然大波,將長期積累的矛盾一次推向檯面。
基準測試天花板幾乎已被突破
光是程式碼能力的數字,就足以說明一切。在 SWE-bench Verified——目前公認最能評估 AI 是否能解決真實 GitHub issue 的基準——分數在短短一年內從約 60% 人類基準線躍升至接近 100%。一年前在孤立任務上勉強超越資深工程師的模型,現在已能全面處理這個基準所涵蓋的軟體維護工作。
飽和現象不止於程式碼。Anthropic、Google 和 OpenAI 等前沿模型,已在博士級科學題目、多模態推理和競賽級數學上達到或超越人類基準線。研究人員現在面臨的難題,是如何快速設計出新的基準測試以跟上系統進化的速度——這個問題在 2024 年前還被視為過於學術、遙不可及。
中美差距實質上已幾乎消弭
報告中地緣政治色彩最濃厚的發現,是中美 AI 模型間的競爭差距。在涵蓋法律、醫學、數學、科學等廣泛學術知識的 MMLU 基準上,美中領先模型之間的差距從 2023 年的 17.5 個百分點縮小至 2024 年底的僅 0.3 個百分點。
在由數百萬次人類對比投票決定排名的 Chatbot Arena 排行榜上,截至 2026 年 3 月,美國的優勢僅剩 2.7%:Anthropic 的 Claude Opus 4.6 拿下 1,503 分,字節跳動的 Dola-Seed Preview 緊追在後,得分為 1,464。報告收錄的最新快照顯示,至 4 月 9 日,差距已再度縮小——Claude Opus 4.6 Thinking 以 1,548 分領先,Z.ai 的 GLM-5.1 以 1,530 分緊隨其後。
這波追趕主要由中國蓬勃發展的開源 AI 社群所驅動。儘管美國私人 AI 投資額是中國的 23 倍——2025 年美國達 2,859 億美元,中國僅 124 億美元——中國實驗室已證明可透過不同路徑達到前沿水準,包括開放模型權重讓社群快速迭代。報告措辭謹慎,未宣告兩國達到全面對等,但趨勢線已讓美國的長期主導地位遠非板上釘釘。
普及速度超越歷史上任何一項科技
指數記錄了幾乎難以置信的採用率。受訪產業中,AI 的組織部署率已達 88%。在大學校園,五分之四的學生將生成式 AI 工具融入日常工作流程。就全體人口而言,生成式 AI 在主流化後短短三年內,已被 53% 的成年人採用——超越個人電腦和網際網路達到同樣里程碑所需的時間。
經濟後果正逐漸具體成形。美國 2025 年對 AI 企業的私人投資達 2,859 億美元,全年催生 1,953 家新獲投 AI 新創公司,是排名第二名國家的十倍以上。不論前沿競爭態勢如何演變,美國在商業化層面的主導地位依然穩固。
透明度危機在最糟糕的時刻爆發
報告最令人憂慮的部分,是記錄了一場同步發生的資訊崩解——研究人員、政策制定者和公眾所能獲得的前沿 AI 系統運作資訊,正在快速萎縮。
基礎模型透明度指數(Foundation Model Transparency Index)為各公司在訓練資料、運算需求、能力、限制和使用政策方面的公開程度打分,今年平均分從去年的 58 分驟降至 40 分。降幅分配極不均衡:能力最強、部署最廣的模型,恰恰是揭露資訊最少的那些。
具體案例令人難以辯駁。Google、Anthropic 和 OpenAI 都已放棄公開報告最新模型的資料集規模和訓練時長——這些資訊在 2022 年前都是業界慣例。在 2025 年發布的 95 個最受矚目的模型中,80 個未附上訓練程式碼。可重現性——科學進步的基石——已被競爭保密所凌駕。
這種不透明,恰好發生在 AI 系統被大規模導入醫療、金融、招募和公共服務等關鍵決策的時刻。AI 事故資料庫所記錄的 AI 事故(定義為「現實世界中 AI 部署所造成的傷害或險些釀成傷害的情況」)在 2025 年達到 362 起,高於前一年的 233 起。當系統越來越能幹、卻越來越難被看透,問責機制的前景正在黯淡。
指數無法衡量的那些事
史丹佛研究團隊坦承資料集的侷限。能力基準測試只能捕捉模型在結構化測試條件下的表現,無法反映它們在混亂現實環境中的實際效果。中國的投資數據很可能低估實際支出,因為通過不透明管道運作的政府引導基金難以納入統計。採用率數據則只測量使用情況,而非創造的價值——這個區別在技術走向成熟、企業被迫以可衡量的回報來justify AI支出時,將越來越重要。
儘管如此,方向性訊號已足夠清晰:AI 表現的提升速度超出實驗室以外所有人的預期,競爭格局比美國政策制定者所設想的更加擁擠,而名義上負責監督 AI 發展的機構,所掌握的相關資訊卻比兩年前更少。
2026 年 AI 指數不是一份允許舒適結論的文件。它是一組數據,要求人們做出艱難抉擇——關於透明度標準、競爭戰略,以及如何看待一種日益能夠在世界中採取行動、卻缺乏充分問責機制的技術。這些抉擇不是指數本身所能做出的。但它已讓繼續迴避變得更加困難。