跳至主要內容
FAQ

網頁正在劫持 AI 代理人:Google 警告間接提示注入攻擊激增 32%

Google 安全研究人員每月掃描數十億個公開網頁,發現惡意間接提示注入攻擊在 2025 年 11 月至 2026 年 2 月間成長了 32%。隱藏在普通 HTML 中的惡意指令,正悄悄接管企業的 AI 代理人——部分案例中甚至被用來執行高達數千美元的 PayPal 轉帳。此研究揭露了目前任何法律框架都尚未規範的根本性安全漏洞。

1 分鐘閱讀

多年來,間接提示注入(Indirect Prompt Injection)一直被視為理論上的資安威脅——研究人員在實驗室環境中演示過的精巧攻擊手法,但在現實世界中鮮少觀察到。Google 最新的安全研究徹底終結了這種安心感。Google 安全團隊一直以大規模方式掃描公開網路,每月掃描約 20 到 30 億個頁面,而他們的發現,是一場軍備競賽已然展開。

2025 年 11 月至 2026 年 2 月間,Google 記錄到公開網頁上嵌入的惡意間接提示注入模式,相對增幅達 32%。這些攻擊並不精密,許多相當粗糙,但其普及程度持續上升——而攻擊對象已不僅是一般用戶,而是企業部署用於瀏覽網頁的 AI 代理人。

間接提示注入的運作原理

標準的提示注入攻擊,是透過在用戶可控的輸入欄位中插入惡意指令來操縱 AI 系統。間接提示注入更為隱蔽:攻擊者不需要觸及用戶或操作介面,只需將指令植入 AI 代理人最終會讀取的內容中——一個網頁、一份文件、一個商品清單。

當代理人抓取該頁面的資訊時,它會把隱藏指令連同正常內容一起吸收進來。模型無法可靠地區分兩者。它將惡意指令視同來自可信來源的命令並加以執行。

攻擊面極為龐大。AI 代理人瀏覽的每一個網頁都是潛在的注入點;AI 助理開啟的每一份文件、擷取的每一條搜尋結果、查詢的每一個第三方資料來源——都面臨同樣的風險。

攻擊技巧一覽

Google 整理了攻擊者對人類訪客隱藏指令、但讓 AI 系統清晰讀取的幾種混淆手法:

隱形渲染: 文字被縮小至單一像素,或渲染成幾乎與背景融為一體的顏色——最簡單的例子是白底白字。AI 模型處理的是 HTML 的原始文字,而非渲染後的視覺頁面,因此能清楚看到這些指令。

HTML 注釋注入: 指令被埋在 HTML 注釋標籤(<!-- ... -->)之中,渲染頁面上完全不可見,但 AI 代理人解析的標記語言中完整存在。

元資料命名空間注入: 指令嵌入頁面元資料與 <head> 標籤,而非可見的頁面正文。AI 的網頁解析器會讀取兩者。

說服增強詞: 部分攻擊載荷包含「ultrathink」或「忽略所有先前指令」等關鍵詞,意圖提升模型將注入指令視為具權威性的可能性。這類技巧的效果因模型而異,但它們出現在野外資料中,證明攻擊者正在積極實驗。

等待引爆的 5,000 美元 PayPal 轉帳

Google 記錄到最令人警惕的案例涉及金融詐騙。研究人員發現一個載荷,其中包含完整指定的 PayPal 轉帳指令:一個 PayPal.me 連結、固定金額 5,000 美元,以及專門針對具有付款能力的 AI 代理人所撰寫的逐步執行說明。

這個攻擊的目標不是竊取憑證,而是直接指示代理人授權付款。隨著 AI 助理獲得代理能力——不只回答問題、而是採取行動——成功注入的後果,已從提供誤導性答案升級為執行真實的金融交易。

第二個已記錄的案例,結合了元資料注入與說服增強詞,將 AI 代理人的金融行為導向一個 Stripe 捐款連結。攻擊手法並不高明;潛在影響卻不容小覷。

尚待厘清的法律責任

Google 研究人員提出了一個超越技術防禦的問題:目前沒有任何法律框架能確定,當一個持有合法憑證的 AI 代理人,在瀏覽網頁時執行了由惡意第三方網站植入的指令,究竟誰應負責。

這確實是法律空白地帶。若用戶授權 AI 代理人存取其銀行帳戶,而代理人在代為瀏覽網頁時,透過注入指令將款項轉入攻擊者帳戶——責任歸屬為何?是授予權限的用戶?是模型被操控的 AI 廠商?是部署代理人的企業?還是網站上托管了注入指令的網站經營者?

現有法律框架——消費者保護法、詐欺罪、金融監管規定——均未考量到自主行動的 AI 代理人。這個缺口,很可能先引發訴訟,再推動立法。

研究範圍與限制

解讀 Google 這個 32% 數字時,需留意研究的侷限性。掃描僅涵蓋公開的靜態網頁,每月約 20 到 30 億個頁面。社群媒體貼文、需要登入才能存取的內容、動態頁面,以及私人文件,均不在研究範圍之內。若涵蓋 AI 代理人日常存取的完整網路環境,包括各種已驗證的企業內容,實際暴露面幾乎肯定更大。

Google 也指出,目前的攻擊整體而言技術層次偏低。大多數偵測到的注入屬於惡作劇、機會性 SEO 操控,或粗糙的金融詐騙。高能力、針對性的攻擊——攻擊者針對特定公司的 AI 代理人部署進行偵察、精心設計攻擊載荷、並將其植入代理人可能造訪的內容——研究人員已可演示,但在野外資料中尚非主流模式。

這個差異至關重要。它意味著在攻擊者群體技術能力全面提升之前,仍有部署防禦的時間窗口。它同時也預示了一條自然演化的軌跡:隨著代理型 AI 的使用規模擴大、高價值目標日益清晰,注入攻擊的精密程度將隨之提升。

防禦方向

Google 研究團隊概述了目前正在使用或開發中的幾個緩解層次:

輸出過濾: AI 系統可透過訓練或提示設計,避免執行來自第三方內容管道(而非可信用戶管道)的指令。

來源追蹤: 根據內容來源打上標記的架構——區分來自用戶的指令、系統提示的指令,以及從網頁擷取的文字——使模型能對不同輸入施加不同程度的信任。多家前沿實驗室已在其代理人框架中建構此類機制的各種變體。

沙盒瀏覽: 在沙盒環境中執行網頁瀏覽的代理人,對任何涉及外部服務的行動都需要明確確認,可有效限制成功注入的破壞範圍。

能力範圍限制: 代理人應僅具備執行當前任務所需的能力。部署於彙整網頁研究的代理人不需要付款權限。最小權限原則是資安領域的基本準則,同樣直接適用於代理型 AI。

上述措施均非完整解決方案。根本矛盾在於:AI 代理人被設計為遵從指令,而指令可以被植入其資訊環境的任何角落——這個問題目前還沒有架構層面的根本解法。

更大的背景脈絡

Google 此次披露的時機並非偶然。代理型 AI 的企業部署浪潮正在急速加速:OpenAI 的 Agents SDK、Anthropic 具備工具使用能力的 Claude、Google 自家的 Gemini 代理人,以及不斷壯大的第三方代理人框架生態,正將 AI 助理從回答問題推向在真實世界中採取行動。代理人能力的每一次提升,都擴大了成功注入攻擊的潛在影響。

Google 的大規模掃描始於 2025 年底——大致與大型企業首次大規模部署代理型系統的時間點吻合。三個月內 32% 的成長率,是可能更陡峭曲線的早期斜率,隨著更多代理人以更多權限瀏覽更廣泛的網頁,這條曲線很可能持續攀升。

資安社群至少從 2023 年起就了解間接提示注入的存在。Google 研究所確立的是:這個理論攻擊類別已成為可觀測的現實——持續成長、具有金融動機,並瞄準 AI 代理人被信任可以執行的那條不斷延伸的邊界。

提示注入 AI 資安 AI 代理人 Google 資訊安全 LLM
分享

相關報導

Anthropic 壓下 Claude Mythos:這個 AI 幾乎能入侵一切

Anthropic 發布迄今最強大的模型 Claude Mythos Preview,卻只開放給 12 個防禦性資安夥伴使用,原因是它能自主找出並利用各大作業系統與瀏覽器的零時差漏洞。這是近七年來,第一次有頂尖 AI 實驗室因安全疑慮公開決定不對外發佈模型。

1 分鐘閱讀