川普習近平北京峰會達成AI護欄共識,專家示警:魔鬼藏在細節裡
美國總統川普離開北京時表示,他與習近平討論了「可能共同建立AI護欄」的可能性,這是美中兩國首次在元首層級進行明確的AI安全對話。此次談判由Anthropic的Mythos模型揭示的漏洞風險所加速,但專家警告,雙方目前仍缺乏具體框架、時程與執行機制。
5月15日,川普登上北京離境的空軍一號時,帶回了一個六個月前幾乎難以想像的消息:他與中國國家主席習近平,以明確的語言討論了全球兩大AI強權協調前沿AI安全護欄的可能性。
「我們討論了可能共同建立護欄,」川普在回程的機上告訴記者——措辭謹慎、帶著保留,但這出自一位歷來把AI監管視為競爭障礙而非優先議題的總統,本身已是一個信號。
陪同訪問的財政部長貝森特隨後在CNBC提供了更多細節:討論重點在於如何為AI制定「最佳實踐,確保非國家行為者無法取得這些模型」——這套框架把威脅定位為美中共同面對的弱點,而非彼此之間的競爭。
什麼改變了計算
這場外交時刻的時機絕非偶然,一個具體事件比任何因素都更能解釋為什麼兩國政府如今感受到迫切性。
2026年4月初,Anthropic公開發布了Mythos Preview的可控技術評估報告——這是一個Anthropic以「前所未有的網路安全風險」為由決定不公開發布的前沿AI模型。報告記載,Mythos在受測的每個主流作業系統和瀏覽器中,都獨立找到了可利用的漏洞,並在多個案例中生成了可執行的攻擊程式碼。
這份評估是刻意公開、刻意震驚的。Anthropic的明確訊息是:這是AI產業在公開部署之前已達到的能力水準。隱含的訊息則被華府、北京及盟國的國家安全機構迅速消化:如果一個重視安全的美國AI實驗室已能建造出這樣的模型,具有更少限制的國家行為者,也已建造或即將建造出類似的東西。
對川普政府而言,此前他們已援引《國防生產法》,要求訓練最大AI模型的企業向政府監管機構提交安全測試結果,而Mythos正是讓這項政策有了血肉的具體案例。對北京而言,這是美國AI發展已進入一個需要多邊應對、而非單方面競爭就能解決的領域的具體證明。
究竟達成了什麼——又沒達成什麼
「討論了護欄的可能性」與「就護欄達成協議」之間存在顯著差距,分析人士正在努力辨析北京會談究竟落在何處。
貝森特的公開聲明使用了「就AI護欄達成共識」的措辭,聽起來比川普自己的說法更為具體。但Axios、美國外交關係委員會及卡內基國際和平基金會的後續報導顯示,雙方目前不存在任何正式協議:沒有命名的組織架構、沒有議定的討論範圍、沒有工作組,也沒有後續會談的時程表。
真正存在的,似乎是一個相互認可:前沿AI值得某種雙邊對話——而這本身就比之前多。美中兩國自2024年起已透過學術後台渠道進行有限的AI安全交流,但此次北京討論代表的是元首層級對這一議題的首次明確接觸。
Gizmodo以尖銳的標題點出了懷疑立場:「川普說他與習近平討論了AI安全護欄的『標準』。這種標準根本不存在。」這個批評有其道理——全球目前對AI安全護欄的定義沒有共識,也沒有任何機構能執行,更對哪些AI能力危險到需要協調存在根本性的分歧。
結構性障礙
即使兩國政府真心想迅速正式化一個AI安全框架,結構性難題依然龐大。
最根本的問題是:AI賦能的網路攻勢已深度嵌入兩國的戰略規劃。美國情報界一直在探索前沿模型在訊號情報、漏洞發掘和輿論操控方面的應用。中國人民解放軍也被廣泛記錄用AI從事類似目的。兩邊都在被要求限制自己正在積極研發和部署的工具。
自2022年以來定義美中科技關係的晶片出口管制,又增加了另一層複雜性。華府花了三年試圖阻止北京取得用於AI訓練的先進半導體——這項政策的前提是中國AI發展構成國家安全威脅。在此同時推進需要一定程度資訊共享的合作性AI安全措施,在戰略上顯得格外尷尬。
還有「非國家行為者」在實踐中意味著什麼的問題。雙方表述的共同關切是AI能力落入恐怖組織、犯罪集團或流氓國家之手。但誰算是問題行為者,哪些AI能力危險到需要協調預防,本身就是高度政治性的判斷。
專家的建議
外交政策界思考美中AI對話已有數年,浮現的共識比拜登時代對多邊AI治理的樂觀預期要審慎得多。
美國外交關係委員會建議所謂「最大壓力下的精準對話」——將AI安全談判限縮在狹窄的具體技術領域(生物AI風險、核指揮控制AI、自主武器),同時在能力發展和市場準入上維持競爭壓力。理由是:廣泛合作在政治上不可行,戰略上也不明智;針對最具災難性風險的類別展開精準對話,或許是可實現的。
卡內基的研究員將當前時刻定義為「一場此前不可能的AI對話,如今正在成為必要」。他們的分析聚焦於AI能力進展與傳統軍控框架的具體重疊——指出冷戰時代的核查機制或許能為部分AI安全措施提供模板,儘管技術特性使核查難度大得多。
接下來看什麼
北京討論的後續路徑尚不清晰,川普政府也謹慎地沒有過度渲染達成的成果。但幾個具體指標,將決定這是否代表一個真實的外交開口,或只是一句在美中競爭的重量下很快蒸發的總統感言。
第一個指標:是否成立了正式的工作組或外交聯絡窗口。沒有制度性延續,AI安全對話將永遠依賴元首層級的善意,而這種善意隨任何地緣政治事件都可能消失。
第二個指標:討論是否停留在「非國家行為者」這個相對不具爭議的框架,還是開始觸及更難的問題——國家主導的AI能力與自主武器。更難的對話,才是更具意義的對話。
第三個指標:盟友的反應。日本、南韓、歐盟、英國,都對前沿AI的國際治理方式有切身利益。一個將盟友排除在外的美中雙邊框架,本身又將製造新一套戰略麻煩。
目前存在的,是一個來自全球AI投資和能力發展兩大主體的信號:前沿AI已進入需要元首層級關注的戰略對話領域。這個信號能否通往任何具體成果,將是未來十年AI治理故事的重要章節。