研究人員用免費工具在 10 分鐘內拆除 Meta 和 Google 開源 AI 的安全護欄

英國《金融時報》調查發現，一款名為 Heretic 的開源工具可在普通筆記型電腦上、10 分鐘內移除 Meta Llama 3.3 和 Google Gemma 3 的安全過濾層。被拆除護欄的模型隨即給出氯氣散布攻擊指南、信用卡盜竊程式碼，以及涉及兒童性剝削的內容，再度引爆開源 AI 安全邊界之爭。

2026年5月27日 1 分鐘閱讀

GitHub 上一款免費工具，可在未經改裝的消費級筆電上、10 分鐘內移除 Meta Llama 3.3 和 Google Gemma 3 兩款全球最廣泛部署的開源 AI 模型的安全對齊層。根據《金融時報》上週末公布的調查，被解除護欄的模型隨即回應了關於如何在密閉空間散布氯氣的提問，生成了可用於竊取信用卡資訊的功能性程式碼，並撰寫出涉及未成年人性侵的文字。

這款工具名為 Heretic，由開發者 Philipp Emanuel Weidmann 於 2026 年 2 月發布，自動化了一種稱為「定向消融」（directional ablation，俗稱 abliteration）的技術——系統性地抑制負責拒絕回應行為的神經網路權重。Weidmann 表示，自發布以來，Heretic 已被用於製作超過 3,500 個「解除審查」的模型變體，合計在模型分享平台上累計 1,300 萬次下載。

Abliteration 的運作原理

Llama 3.3、Gemma 3 這類現代 AI 模型並非生來就安全——它們的安全特性來自微調（fine-tuning）階段，也就是透過人類反饋強化學習（RLHF）、直接偏好優化（DPO）等流程，訓練模型拒絕有害內容。這些微調層疊加在基礎模型本來就具備的能力之上，而基礎模型原則上可以回應幾乎任何提示。

Abliteration 的做法是找出並抑制模型殘差流（residual stream）中對應「拒絕行為」的特定方向分量。研究人員透過一組有害與無害提示的對比集，可以隔離出一個「拒絕方向」——一個在模型激活空間中與拒絕回應高度關聯的向量。把這個方向從激活中減去，模型的拒絕傾向就大幅降低，而整體能力幾乎不受影響。

Heretic 的貢獻在於自動化這整個過程：工具使用 Optuna 的 TPE（Tree-structured Parzen Estimator）最佳化器，全自動搜尋最佳消融參數，無需手動調整。根據公開基準測試，Heretic 在 Gemma-3-12B-IT 上的拒絕率僅 3/100，KL 散度低至 0.16——比主流手動 abliteration 技術造成的能力損傷少 6.5 倍，換言之，模型在幾乎喪失所有安全行為的同時，核心能力幾乎完好無損。

整個過程完全在消費級硬體上執行。《金融時報》在測試中，僅用一台未改裝的筆電，10 分鐘內即完成 Llama 3.3 護欄拆除。全程無需專業硬體、雲端資源或高深的機器學習知識。

被拆護欄的模型輸出了什麼

《金融時報》與 AI 安全機構 Alice 合作進行的測試記錄了一系列有害輸出：一個已解除護欄的 Gemma 3 版本回應了如何在室內密閉空間散布氯氣的提問；生成了專門設計用來竊取信用卡資料的可執行程式碼；並撰寫了描述兒童遭受性侵的敘事文字。

這些輸出並非 Heretic 的技術缺陷，而是其設計目標本身。這款工具的明確目的，是移除創作者所稱的「審查」，恢復模型的原始能力。Weidmann 的立場偏向自由主義而非惡意：他認為使用者有權在沒有企業限制的情況下運行模型。

然而現實後果並非抽象的。被處理過的模型可在 Hugging Face、civitai 等平台公開取得，研究人員或記者只需幾分鐘即可找到 Llama 3.3 的 Heretic 處理版本。迄今記錄的 1,300 萬次下載，代表著大量不明身份的用戶手中已握有無過濾限制的模型。

業者如何回應

Google 在聲明中確認了問題的存在：「Abliteration 是所有開源模型面臨的一個已知技術挑戰。我們的開源模型在發布前均經過嚴格的內部安全評估，以防止此類令人憂慮的情況發生。」公司並未宣布任何具體技術對策或政策調整。

Meta 婉拒公開置評。一位接近該公司的人士告訴《金融時報》，Meta 在發布開源模型前會依其「進階 AI 擴展框架」評估能力風險。

兩家公司的回應，折射出開源 AI 在安全治理上的根本矛盾：企業投入大量資源進行負責任的發布實踐——紅隊測試、能力評估、拒絕微調——但模型一旦以開放權重形式釋出，程式碼就無法被召回或修補。安全屬性並非權重本身固有的特性；它們只是覆蓋在上面的一層薄膜。

閉源模型的本質差異

《金融時報》調查中值得注意的一個限制：上述技術無法輕易應用於 Anthropic Claude 或 OpenAI ChatGPT 等閉源系統。這些系統完全運行在服務商控制的基礎設施上，使用者從不接觸底層模型權重。閉源系統的安全行為在推論時由模型對齊和 API 層過濾共同執行——而這個介面比 abliteration 等需要直接存取權重的技術難以攻破得多。

這種差異在開源與閉源 AI 開發的路線論戰中反覆被提及。閉源陣營認為，無法消融安全過濾層是一項有實質意義的安全特性；開源陣營則反駁，不透明的閉源系統更難被審視，開放權重反而推動了整個領域的安全研究，而且有足夠資源的壞人本就可以自行訓練無審查模型，不管 Llama 或 Gemma 是否開源。

更深層的問題

Heretic 的曝光，清晰勾勒出 AI 安全社群自 2023 年首批開源前沿模型面世以來一直面對的核心問題：對齊不是堅不可摧的保證，而是一層脆弱的薄膜。

這些系統的安全行為，是統計意義上的傾向，不是密碼學意義上的保證。一個被微調為拒絕生化武器相關提問的模型，並不「理解」生化武器的危險性——它只是學到了一個模式：某類請求與拒絕回應相關。Abliteration 把這個模式移除了。

對於發布開源模型的公司而言，困境在於：對齊的魯棒性（robustness）與模型能力，至少在某種程度上是相互拉扯的。一個極難被消融的模型，很可能需要把安全約束嵌入更深層的訓練流程——代價可能是通用能力的下降，或削弱了開源模型對研究人員和開發者最有價值的彈性。

在 1,300 萬次下載的規模面前，後消融模型生態系已大到足以構成實質的安全考量。這是否會改變前沿實驗室繼續發布開源模型的思路——Meta 已宣布 Llama 4 Scout 和 Llama 5 將以開放權重形式發布——仍有待觀察。

但《金融時報》的調查讓一件事更難辯駁：開源 AI 模型被濫用的風險，已不再是純理論問題。Heretic 已讓它變得輕而易舉。

資料來源

AI 安全開源模型 Meta Llama Google Gemma abliteration 資安

研究人員用免費工具在 10 分鐘內拆除 Meta 和 Google 開源 AI 的安全護欄

Abliteration 的運作原理

被拆護欄的模型輸出了什麼

業者如何回應

閉源模型的本質差異

更深層的問題

資料來源

相關報導

五眼聯盟發出首份聯合警告：自主 AI 代理人部署已超前安全防禦能力

Google 攔截首個確認由 AI 生成的零時差攻擊，發出嚴厲警告

Meta「Avocado」一再跳票：閉源豪賭受挫，傳考慮向 Google 授權 Gemini