跳至主要內容
FAQ

OpenAI 發布前沿治理框架:安全實踐正式對齊美國與歐盟監管要求

OpenAI 於 5 月 28 日發布《前沿治理框架》,這份正式公開文件詳細說明公司內部安全與準備度實踐如何對應加州《前沿 AI 透明度法》及歐盟 AI 法《通用目的 AI 行為準則》的具體法律義務。框架涵蓋網路攻擊、生化放核武器威脅、有害操縱及 AI 失控等風險類別,並承諾持續的模型報告、事件回應與外部專家審查機制。

1 分鐘閱讀

AI 實驗室對公眾描述其安全實踐的方式,與這些實踐在白紙黑字上實際要求什麼——這兩者之間的落差,至少從 2022 年起就是前沿 AI 產業持續面臨的核心批評。5 月 28 日,OpenAI 採取了具體且具法律意義的行動縮小這個落差,發布《前沿治理框架》——一份正式文件,將公司現有的內部安全與準備度架構,對應到兩大主要監管制度的具體義務:加州《前沿 AI 透明度法》(Transparency in Frontier AI Act)及歐盟 AI 法的《通用目的 AI 行為準則》(GPAI Code of Practice)。

這份框架並非全新政策。OpenAI 明確說明,它是對現有《準備度框架》的轉化應用——將定義公司如何識別、評估和減緩前沿 AI 系統風險的內部文件,翻譯為外部法律問責的語言。使其值得關注的,是具體性的架構:不再是對安全原則的籠統承諾,而是列舉特定風險類別、特定評估方法和特定回應承諾,與具有執法效力的監管定義掛鉤。

框架涵蓋哪些內容

《前沿治理框架》將 OpenAI 的風險管理方法組織在四個核心危險類別下——監管機構與安全研究者認為這些是強大 AI 系統最關鍵的憂慮:

網路攻擊能力:能夠有意義地協助大規模網路攻擊的開發、部署或執行——超出複雜人類對手在沒有 AI 輔助下能夠達到的水準。框架承諾在部署前針對網路攻擊閾值評估新模型,並維持部署後能力湧現的監控機制。

生化放核風險(CBRN):能向試圖製造化學、生物、放射性或核武器的行為者提供「實質助力」的 AI。這一類別反映了這樣的擔憂:具備足夠詳細科學知識的 LLM,可能降低大規模災難性攻擊的技術門檻。框架建立了明確的評估協議與紅線閾值——超過這些閾值的能力,若不附加特定安全控制,模型將不予部署。

有害操縱:能夠在政治情境中進行大規模精密心理操縱的 AI——定向虛假資訊、個人化勸說行動或旨在動搖機構的合成媒體。這一風險類別較少涉及武器,更多關乎民主進程與公共認識論的完整性。

失控風險:發展出操作者和用戶未授權目標,或採取未授權行動的 AI 系統——即該領域所稱的「失對齊」、「欺騙性對齊」或「尋求權力的行為」。這是與長期 AI 安全顧慮最密切相關的類別,也是評估方法最不成熟的領域。

從內部政策到外部問責

OpenAI 的《準備度框架》於 2023 年底推出,是邁向系統性內部風險治理的重要步驟,建立了跨風險領域的能力評分卡評估制度,並創建與這些分數掛鉤的升級程序。但內部政策無論多麼詳盡,都帶有有限的問責性:它們可以在外部看不見的情況下被修改、重新詮釋或悄悄擱置。

《前沿治理框架》在本質上有所不同。透過對齊加州《前沿 AI 透明度法》——要求前沿 AI 系統開發商揭露安全測試方法、結果與事件報告——OpenAI 接受了外部審計義務。透過對齊歐盟 AI 法的 GPAI 行為準則——歐洲監管機構正積極執行的規範——它接受了不合規將面臨財務罰款的義務。

實際意涵是,框架建立了書面紀錄。模型評估結果必須有文件記載。事件——即模型能力超過部署前風險閾值的情況——必須向監管機構報告。外部專家透過框架所稱的「外部意見機制」,必須有結構化管道評估 OpenAI 的合規聲明。

框架回應的監管時刻

這份框架發布之際,前沿 AI 開發商所面臨的監管壓力已從理論轉向實務。加州《前沿 AI 透明度法》歷經多年立法折衝和 2024 年 SB 1047 法案的失敗後,最終以聚焦揭露與透明度而非事前審批的形式落地。歐洲監管機構自 2026 年初起已開始執行 GPAI 行為準則條款,正式合規截止日期帶來了切實的緊迫性。

與此同時,美國政府也加快了介入 AI 安全的步伐。美國國家標準與技術研究院(NIST)的 CAISI 倡議——在 5 月獲得微軟、Google 和 xAI 的模型部署前存取承諾——代表聯邦政府以十八個月前在政治上尚不可能的方式,插手評估流程。OpenAI 另外承諾讓其最先進的模型向獲審查的政府用戶開放。

OpenAI 的框架可以被解讀為一種主動舉措——塑造這些監管流程如何適用於其運營,而非等待被這些流程所塑造。一家率先發布詳細治理文件的公司,對監管機構如何詮釋其實踐的影響力,遠超過只能對監管查詢被動回應的公司。

產業背景

OpenAI 並非獨自在此賽道行進。Anthropic 有其《負責任擴展政策》,已於 2025 年修訂以納入類似的風險等級框架。Google DeepMind 於 2024 年中發布了《前沿安全框架》。微軟透過 Azure AI 安全架構,將其 AI 安全承諾與 Anthropic 及自身內部標準對齊。

OpenAI《前沿治理框架》的獨特之處,在於明確雙重對齊加州和歐盟監管——這兩個監管體系最可能在近期內對美國 AI 開發商創造可執行的合規義務。透過點名這些監管體系,並將框架特定條款映射到其具體要求,OpenAI 正在建立一套可直接依據已知外部標準進行審計的合規架構。

框架承諾「隨模型能力、評估方法和監管要求的發展持續更新」——這同樣值得關注。目前對失控風險的評估方法仍相當粗糙;沒有人真正解決如何穩健地測試一個模型是否具有欺騙性對齊的問題。OpenAI 的框架承諾隨著科學進步更新評估方法,這創造了一個棘輪機制:隨著該領域偵測風險能力的提升,框架要求也將隨之提高。

批評者會提出什麼問題

這份框架將面臨幾個層面的審視。

首先是驗證問題:OpenAI 既是制定評估標準的實體,也是執行評估的實體。外部審計員對模型權重和內部評估資料的存取有限。框架提及外部專家意見,但審計員能夠查閱哪些資料、不合規後有何執法行動,仍有待監管機構確立。

其次是完整性問題:框架著眼於監管機構優先關注的風險類別,但 AI 安全社群認為,最重要的長期風險——能力的漸進積累、湧現的策略性行為、AI 衍生的經濟與政治權力的社會集中——並未被現有評估框架充分捕捉。與現有監管要求精確對齊的文件,可能恰好與真實風險面精確錯位。

第三是激勵問題:OpenAI 同時也是一家在競爭中盡快部署日益強大模型的公司。由這樣一家公司自行製作的治理框架,無論多麼詳盡,都會被一些觀察者解讀為監管合法性工具而非真誠的安全承諾。

這些批評是嚴肅的,值得認真對待。但替代方案——沒有任何與外部標準掛鉤的正式治理文件——顯然更糟。《前沿治理框架》代表了一種讓監管執法得以實現的具體、可審計承諾。執法是否有效,最終取決於監管機構、獨立研究者,以及各國政府是否願意行使它們正開始主張的監督權威。


OpenAI 於 2026 年 5 月 28 日發布《前沿治理框架》,全文可於 openai.com 查閱。

openai ai安全 ai政策 監管 歐盟AI法 加州AI法 AI治理
分享

相關報導

EU AI 法案 8 月 2 日高風險截止日迫近,三方談判陷入僵局

歐盟史上最嚴格的 AI 合規要求——高風險 AI 義務——將於 2026 年 8 月 2 日正式生效,距今不到 90 天。然而,關於延期的「數位 AI 綜合法案」談判在 4 月 28 日的三方協商中無疾而終,下次會議訂於 5 月 13 日,而多數企業連高風險 AI 系統的基本清單都尚未建立。

1 分鐘閱讀

美國五大前沿 AI 實驗室全部納入政府發布前評估機制

美國商務部旗下的 AI 標準與創新中心(CAISI)已與五大前沿 AI 實驗室——OpenAI、Anthropic、Google DeepMind、微軟和 xAI——完成發布前評估協議,建立起一套自願性框架:每款重要新 AI 模型都必須通過政府安全評估才能公開發布。自 2024 年以來已完成逾 40 次評估,這套機制正悄然成為美國前沿 AI 事實上的監管底線。

1 分鐘閱讀