OpenAI 推出 ChatGPT「鎖定模式」，防堵提示注入攻擊造成的資料外洩

OpenAI 已開始向所有個人及自助式企業 ChatGPT 帳戶推出鎖定模式（Lockdown Mode），切斷即時網頁瀏覽、代理行動和檔案下載，以防止提示注入攻擊竊取資料。此功能標誌著 AI 助理在高風險環境中的重要安全進展，但 OpenAI 坦承仍存在殘餘風險。

1 小時前 1 分鐘閱讀

ChatGPT 功能強大，但有一個長期存在的安全漏洞：提示注入攻擊（prompt injection）。攻擊者將惡意指令藏入文件、電子郵件或網頁中，當 ChatGPT 讀取這些內容時，惡意指令便能劫持模型行為——有時會導致敏感資料被傳送至攻擊者控制的伺服器。隨著 ChatGPT 深入企業應用，代理式工作流程大幅擴展了攻擊面，OpenAI 承受著在平台層級解決這類威脅的巨大壓力。

OpenAI 的回應，是現已廣泛推出的鎖定模式（Lockdown Mode）：一項可選的安全設定，精準移除提示注入攻擊最常利用的對外網路通道。這項功能最初於二月針對少數高安全需求用戶進行試驗，現已向所有個人帳戶（免費版、Go、Plus、Pro）以及自助式 ChatGPT Business 訂閱者開放。

鎖定模式做了什麼（以及做不到什麼）

設計理念精準而有所取捨。鎖定模式並非試圖從一開始就阻止提示注入進入模型的上下文視窗——那至今仍是 AI 安全領域的未解難題。它針對的是成功攻擊的最後一哩路：攻擊者嵌入的指令試圖透過對外網路請求竊取資料的那一刻。

為此，鎖定模式禁用或嚴格限制了一系列需要外部連線的 ChatGPT 功能：

即時網頁瀏覽：封鎖即時網路存取，模型只能依賴訓練資料和快取內容
深度研究（Deep Research）：瀏覽並整合即時來源的多步驟研究功能被停用
代理模式（Agent Mode）：與外部服務互動的自主任務完成工作流程被關閉
Canvas 網路功能：協作文件功能的網路整合被切斷
檔案下載：ChatGPT 無法將檔案傳送至外部目的地
圖片支援：部分需要網路擷取的圖片功能受到限制

剩餘的仍是一個功能強大的文字輸入/輸出助理，可存取上傳的檔案和文件——適合分析、起草和推理，但以有意義的方式與網路隔離，大幅縮小了資料外洩的攻擊面。

啟用方式很直觀：前往設定 → 安全性 → 進階安全性 → 鎖定模式。有一個重要的操作限制：鎖定模式和開發者模式無法同時啟用，啟用其中一個會停用另一個，這是刻意的設計，防止開發者在本應保持鎖定模式的生產環境中意外繞過安全設定。

為何此刻推出

時機絕非偶然。過去十二個月，ChatGPT 從主要的單輪對話介面演變為能夠瀏覽網頁、讀取上傳文件、執行程式碼並連接第三方服務的多步驟代理。這些能力各自提升了生產力，也各自擴大了攻擊面。

安全研究人員在受控環境中已示範，針對 ChatGPT 網頁瀏覽和代理功能的提示注入攻擊，可以將剪貼簿內容、工作階段識別碼和文件文字外洩至攻擊者控制的網址。這些攻擊不需要入侵 OpenAI 的基礎設施，只需利用 AI 模型遵從指令的本質與開放網路內容不可信任性之間的根本張力。

企業採用率的上升加劇了緊迫性。隨著企業在合約審查、人資文件分析和敏感程式碼生成等任務中部署 ChatGPT，成功的提示注入攻擊的潛在衝擊範圍不斷擴大。一個讀取惡意製作 PDF 後嘗試將其內容 POST 至外部伺服器的模型，不是理論上的擔憂——而是已被示範的攻擊模式。

鎖定模式透過讓 POST 請求不可能發生來解決這個問題。即使注入的指令成功操縱了模型的輸出，也沒有網路通道可以完成資料外洩。

坦誠面對局限

OpenAI 對鎖定模式無法保證的事項表現得相當坦誠。公司明確表示，此功能「不保證資料外洩絕對不會發生」。三個殘餘風險向量依然存在：

第三方應用程式整合：已連接第三方應用程式的用戶，即便在鎖定模式下仍保有這些連接。惡意指令可能透過已連接的應用程式觸及外部系統。

未預期的功能組合：AI 系統複雜，鎖定模式的限制與特定功能組合之間的交互作用，可能產生未來攻擊研究可能發現的意外漏洞。

新型攻擊技術：安全是一場軍備競賽。鎖定模式關閉的是已知攻擊向量，並不能對抗尚未被發現的攻擊技術。

公司還指出，即便在鎖定模式下，嵌入於上傳檔案中的惡意指令仍會影響 ChatGPT 的行為——模型仍會讀取該檔案，如果檔案包含對抗性文字，那些文字就會進入上下文。保護的是資料外洩，而非注入本身。

附帶功能：高風險標籤

除鎖定模式外，OpenAI 還推出了高風險標籤（Elevated Risk Labels）——當 ChatGPT 正在處理較可能包含提示注入的內容時，介面上會出現視覺指示。系統根據內容類型和來源的啟發式方法，標記用戶應對 ChatGPT 提出的行動格外謹慎的情況。

標籤不會封鎖行動，而是呈現警告。這體現了 OpenAI 的整體安全理念：AI 安全最好透過技術控制與知情的人類監督相結合來實現，而非不透明的自動封鎖。

更廣泛的安全走向

ChatGPT 鎖定模式的推出，正值業界努力應對代理式 AI 設計中的根本張力之際。讓 AI 助理最有用的功能——網路存取、工具使用、多步驟自主性——恰恰是最擴大攻擊面的功能。注重安全的企業已要求可選式強化模式數月之久；OpenAI 的實作驗證了這個需求的存在。

競爭對手正在觀望。Google 的 Gemini Advanced 和 Anthropic 的 Claude 在其代理配置中面臨相同的提示注入風險。它們是否在未來幾個月跟進類似的強化功能，將是業界是否將安全視為頭等產品關切而非事後補救的重要指標。

對現在的用戶而言，鎖定模式代表著務實而誠實的一步：顯著縮小攻擊面、坦誠說明無法保證的事項，並讓用戶自行在能力與安全之間做出知情的取捨。對於處理敏感文件的企業而言，這個取捨是許多資安團隊樂於接受的選擇。

資料來源

openai chatgpt 資安提示注入 AI安全企業應用

OpenAI 推出 ChatGPT「鎖定模式」，防堵提示注入攻擊造成的資料外洩

鎖定模式做了什麼（以及做不到什麼）

為何此刻推出

坦誠面對局限

附帶功能：高風險標籤

更廣泛的安全走向

資料來源

相關報導

OpenAI Codex Sites：用一句話描述，任何員工都能部署一個上線的網頁應用

OpenAI 開放 ChatGPT 廣告自助平台：CPC 競價與轉換優化同步上線

OpenAI Dreaming V3：ChatGPT 終於有了真正跟得上你生活的記憶系統