研究人員用免費工具在 10 分鐘內拆除 Meta 和 Google 開源 AI 的安全護欄
英國《金融時報》調查發現,一款名為 Heretic 的開源工具可在普通筆記型電腦上、10 分鐘內移除 Meta Llama 3.3 和 Google Gemma 3 的安全過濾層。被拆除護欄的模型隨即給出氯氣散布攻擊指南、信用卡盜竊程式碼,以及涉及兒童性剝削的內容,再度引爆開源 AI 安全邊界之爭。
GitHub 上一款免費工具,可在未經改裝的消費級筆電上、10 分鐘內移除 Meta Llama 3.3 和 Google Gemma 3 兩款全球最廣泛部署的開源 AI 模型的安全對齊層。根據《金融時報》上週末公布的調查,被解除護欄的模型隨即回應了關於如何在密閉空間散布氯氣的提問,生成了可用於竊取信用卡資訊的功能性程式碼,並撰寫出涉及未成年人性侵的文字。
這款工具名為 Heretic,由開發者 Philipp Emanuel Weidmann 於 2026 年 2 月發布,自動化了一種稱為「定向消融」(directional ablation,俗稱 abliteration)的技術——系統性地抑制負責拒絕回應行為的神經網路權重。Weidmann 表示,自發布以來,Heretic 已被用於製作超過 3,500 個「解除審查」的模型變體,合計在模型分享平台上累計 1,300 萬次下載。
Abliteration 的運作原理
Llama 3.3、Gemma 3 這類現代 AI 模型並非生來就安全——它們的安全特性來自微調(fine-tuning)階段,也就是透過人類反饋強化學習(RLHF)、直接偏好優化(DPO)等流程,訓練模型拒絕有害內容。這些微調層疊加在基礎模型本來就具備的能力之上,而基礎模型原則上可以回應幾乎任何提示。
Abliteration 的做法是找出並抑制模型殘差流(residual stream)中對應「拒絕行為」的特定方向分量。研究人員透過一組有害與無害提示的對比集,可以隔離出一個「拒絕方向」——一個在模型激活空間中與拒絕回應高度關聯的向量。把這個方向從激活中減去,模型的拒絕傾向就大幅降低,而整體能力幾乎不受影響。
Heretic 的貢獻在於自動化這整個過程:工具使用 Optuna 的 TPE(Tree-structured Parzen Estimator)最佳化器,全自動搜尋最佳消融參數,無需手動調整。根據公開基準測試,Heretic 在 Gemma-3-12B-IT 上的拒絕率僅 3/100,KL 散度低至 0.16——比主流手動 abliteration 技術造成的能力損傷少 6.5 倍,換言之,模型在幾乎喪失所有安全行為的同時,核心能力幾乎完好無損。
整個過程完全在消費級硬體上執行。《金融時報》在測試中,僅用一台未改裝的筆電,10 分鐘內即完成 Llama 3.3 護欄拆除。全程無需專業硬體、雲端資源或高深的機器學習知識。
被拆護欄的模型輸出了什麼
《金融時報》與 AI 安全機構 Alice 合作進行的測試記錄了一系列有害輸出:一個已解除護欄的 Gemma 3 版本回應了如何在室內密閉空間散布氯氣的提問;生成了專門設計用來竊取信用卡資料的可執行程式碼;並撰寫了描述兒童遭受性侵的敘事文字。
這些輸出並非 Heretic 的技術缺陷,而是其設計目標本身。這款工具的明確目的,是移除創作者所稱的「審查」,恢復模型的原始能力。Weidmann 的立場偏向自由主義而非惡意:他認為使用者有權在沒有企業限制的情況下運行模型。
然而現實後果並非抽象的。被處理過的模型可在 Hugging Face、civitai 等平台公開取得,研究人員或記者只需幾分鐘即可找到 Llama 3.3 的 Heretic 處理版本。迄今記錄的 1,300 萬次下載,代表著大量不明身份的用戶手中已握有無過濾限制的模型。
業者如何回應
Google 在聲明中確認了問題的存在:「Abliteration 是所有開源模型面臨的一個已知技術挑戰。我們的開源模型在發布前均經過嚴格的內部安全評估,以防止此類令人憂慮的情況發生。」公司並未宣布任何具體技術對策或政策調整。
Meta 婉拒公開置評。一位接近該公司的人士告訴《金融時報》,Meta 在發布開源模型前會依其「進階 AI 擴展框架」評估能力風險。
兩家公司的回應,折射出開源 AI 在安全治理上的根本矛盾:企業投入大量資源進行負責任的發布實踐——紅隊測試、能力評估、拒絕微調——但模型一旦以開放權重形式釋出,程式碼就無法被召回或修補。安全屬性並非權重本身固有的特性;它們只是覆蓋在上面的一層薄膜。
閉源模型的本質差異
《金融時報》調查中值得注意的一個限制:上述技術無法輕易應用於 Anthropic Claude 或 OpenAI ChatGPT 等閉源系統。這些系統完全運行在服務商控制的基礎設施上,使用者從不接觸底層模型權重。閉源系統的安全行為在推論時由模型對齊和 API 層過濾共同執行——而這個介面比 abliteration 等需要直接存取權重的技術難以攻破得多。
這種差異在開源與閉源 AI 開發的路線論戰中反覆被提及。閉源陣營認為,無法消融安全過濾層是一項有實質意義的安全特性;開源陣營則反駁,不透明的閉源系統更難被審視,開放權重反而推動了整個領域的安全研究,而且有足夠資源的壞人本就可以自行訓練無審查模型,不管 Llama 或 Gemma 是否開源。
更深層的問題
Heretic 的曝光,清晰勾勒出 AI 安全社群自 2023 年首批開源前沿模型面世以來一直面對的核心問題:對齊不是堅不可摧的保證,而是一層脆弱的薄膜。
這些系統的安全行為,是統計意義上的傾向,不是密碼學意義上的保證。一個被微調為拒絕生化武器相關提問的模型,並不「理解」生化武器的危險性——它只是學到了一個模式:某類請求與拒絕回應相關。Abliteration 把這個模式移除了。
對於發布開源模型的公司而言,困境在於:對齊的魯棒性(robustness)與模型能力,至少在某種程度上是相互拉扯的。一個極難被消融的模型,很可能需要把安全約束嵌入更深層的訓練流程——代價可能是通用能力的下降,或削弱了開源模型對研究人員和開發者最有價值的彈性。
在 1,300 萬次下載的規模面前,後消融模型生態系已大到足以構成實質的安全考量。這是否會改變前沿實驗室繼續發布開源模型的思路——Meta 已宣布 Llama 4 Scout 和 Llama 5 將以開放權重形式發布——仍有待觀察。
但《金融時報》的調查讓一件事更難辯駁:開源 AI 模型被濫用的風險,已不再是純理論問題。Heretic 已讓它變得輕而易舉。