Anthropic「Claude Mythos」外洩：史上最強 AI 模型，也是最嚴峻的資安威脅

Anthropic 因 CMS 設定錯誤，意外曝光代號「Mythos」的全新模型，定位在 Opus 之上的「Capybara」產品層級。公司目前正私下向美國官員簡報其前所未有的資安風險，同時進行有限度的早期存取測試。

2026年4月5日 1 分鐘閱讀

3 月 26 日，Anthropic 的內容管理系統因設定錯誤，意外將約三千份尚未公開的內部資產暴露在外，其中包含一個公司費心守密的新模型：代號「Mythos」。這場意外洩露所引發的連鎖反應，清楚展示了 AI 前沿公司如何以高度謹慎的態度，面對自家最強大系統所帶來的雙刃效應。

不該發生的外洩

這次 CMS 設定失誤，讓外界得以一窺 Anthropic 的內部文件、產品路線圖以及尚未公開的基準測試數據。在洩露的內容中，有一份關於代號「Capybara」產品層級的資料，顯示一個定位在現有旗艦機型 Claude Opus 4.6 之上的全新模型正在開發中。

Anthropic 火速啟動應變程序，但安全研究人員與記者已搶先擷取足夠資訊，拼湊出 Mythos 的全貌。事發數日後，Anthropic 向《財富》雜誌正式證實該模型的存在，並將其描述為「迄今為止我們開發的最強大 AI 模型」。

對一家旗下 Opus 4.6 已高居大多數獨立基準測試榜首的公司而言，這樣的說法格外有份量。根據洩露的內部文件，Mythos 不只是循序漸進的進化——Anthropic 內部將其定位為「能力上的躍階式轉變」。

大幅領先的基準測試成績

洩露的數據顯示，Mythos 在三個核心領域大幅超越 Claude Opus 4.6：程式撰寫、學術推理以及資安攻防。在自主軟體工程能力的黃金標準 SWE-bench Verified 測試中，Mythos 的得分據稱遠超任何現有已發布模型。在 GPQA Diamond 和 AIME 2025 等高階學術基準上，差距更被描述為「相當顯著」。

然而，最引人注目、也最令人憂慮的，還是其在資安基準測試上的表現。

Mythos 被描述為能夠以「遠超防禦者應對能力」的規模，自動識別並利用系統漏洞。在內部紅隊演練中，該模型展現出獨立串聯多步驟網路攻擊的能力——包括情報蒐集、漏洞識別、漏洞利用和橫向移動——全程不需人類在每個步驟介入提示。

這正是 Mythos 核心設計哲學的體現：它是一個原生的代理模型，從底層架構便是為了端對端規劃與執行多步驟任務序列而生。Claude Opus 4.6 雖可透過代理框架增強，但其根本設計仍是對話助理；Mythos 則從一開始便以長時程自主運作為目標。

上市前先向華盛頓簡報

Mythos 最不尋常之處——即便以 AI 前沿的標準衡量也屬罕見——是 Anthropic 在宣布正式上市或發布日期之前，先向美國政府高層官員進行私下簡報。

Axios 的報導指出，Anthropic 已悄悄向情報界及相關國會委員會簡報 Mythos 在攻擊性資安應用上的潛在風險。公司將此舉定位為負責任行動者的主動揭露，在模型廣泛部署前就提前示警。

這套做法符合 Anthropic 一貫的安全優先品牌形象，但也反映出內部員工對於將這樣一個模型推向市場的真實不安——畢竟，國家級和一般駭客正積極尋求 AI 驅動的攻擊工具。

這些簡報也有其現實考量：據報 Anthropic 有意將 Mythos 定位為機密政府業務的工具，特別是在網路防禦領域。該公司已透過既有的研究合作，與 DARPA 和情報界建立聯繫。

資安夥伴率先取得存取權

Anthropic 並未採取大規模公開發布，而是針對特定資安合作夥伴推行有限的早期存取計畫。這批對象包括少數獲得審核的組織，聚焦於入侵偵測、漏洞評估、威脅情資等防禦性 AI 應用場景，確保 Mythos 的能力在受控、可監測的環境中運用。

這種做法與 OpenAI 處理其最敏感模型發布的方式如出一轍：建立分層存取架構，既能收集真實世界的能力數據，又能將最危險能力的暴露範圍限縮在受審查的行為者。

值得注意的是，目前尚無任何公開發布時間表。這本身就不尋常——Anthropic 通常會提前預告模型發布，給開發者生態系足夠的準備時間。Mythos 沒有公開時程，意味著安全測試可能仍在進行，或公司正在應對比以往更複雜的政策與法律環境。

全新定價層與 AI 前沿的商業邏輯

Mythos 公開上市時，將在 Opus 之上引入第四個產品層，也就是洩露資料中所稱的「Capybara」層。考量到如此規模模型的運算需求與市場定位，這很可能是 Anthropic 迄今最昂貴的 API 方案。

商業邏輯清晰可辨：隨著前沿 AI 與開源替代方案在最高難度任務上的差距持續擴大，企業客戶為真正的能力優勢支付溢價的意願也隨之提升。Mythos 似乎正是為了填補這一市場空白而生。

這也對 Anthropic 的競爭態勢產生深遠影響。2026 年初，公司陷入一個尷尬處境——Claude Opus 4.6 固然受到高度評價，但 Google 的 Gemini 3.1 Pro 在許多基準上後來居上，而 OpenAI 的 GPT-5.x 系列也已完成換代轉型。如果 Mythos 的表現果如內部數據所示，將讓 Anthropic 重新站回技術前沿，徹底改變整個產業的競爭格局。

前所未有規模的雙重用途困境

Mythos 所引發的更深層問題——業界觀察者開始認真思考的問題——是：當一個模型的能力強大到攻防天平明顯向攻擊方傾斜時，對安全政策生態系意味著什麼？

以往的 AI 能力——程式助理、影像生成、甚至早期代理系統——所帶來的雙重用途疑慮尚在可控範圍。監管和行業框架的發展速度足以跟上。但 Mythos 的不同之處在於，其程度差異可能已構成本質上的差異。

一個能夠自主串聯大規模網路攻擊步驟的 AI 系統，不只是讓個別惡意行為者更加強大——它可能從根本上改變國家級網路行動的成本效益，把發動精密攻擊的門檻降低到更小型的行為者也可輕鬆跨越的程度，並製造出現有偵測系統無法識別的全新攻擊面。

Anthropic 選擇在發布前向政府官員簡報，正是對這一現實的承認。整個產業現在追問的是：這種承認是否足夠——還是說，Mythos 代表著一個 AI 能力需要全新治理框架的歷史轉折點？

目前，Anthropic 仍在謹慎推進。但 Mythos 的存在——無論多麼意外地曝光——意味著一個新的 AI 能力門檻已然跨越，不管模型是否已落入任何人手中。

資料來源

Anthropic Claude Mythos AI 安全資安基礎模型 AI 代理