跳至主要內容
FAQ

Anthropic 發布 Claude Opus 4.8:平行代理架構 Dynamic Workflows 與 Mythos 級模型預告

Anthropic 於 5 月 28 日發布 Claude Opus 4.8,代理程式編碼、推理與知識工作三項核心指標全面提升,Fast Mode 費用降至三分之一,並推出名為 Dynamic Workflows 的研究預覽功能,可在單一 Claude Code 工作階段內同時運行數百個平行子代理。Anthropic 同步預告即將推出「Mythos 級」旗艦模型系列。

1 分鐘閱讀

Anthropic 於 5 月 28 日發布 Claude Opus 4.8。儘管版本號看似小幅迭代,實際內容卻涵蓋市場當前最在意的多個關鍵維度:代理程式編碼效能、長時間自主任務能力、成本,以及模型對自身限制的誠實程度。加上「Mythos 級」旗艦模型的公開預告,以及全新的平行執行架構 Dynamic Workflows,本次發布已清楚傳達:Anthropic 正在加速邁向遠超版本更新的下一個大躍升。

關鍵數字:真實且紮實的進步

Anthropic 公布了 Opus 4.7 與 Opus 4.8 在三項核心指標的對比:

  • 代理程式編碼分數:從 64.3% 提升至 69.2%,相對進步幅度約 7.6%
  • 多領域推理與工具使用:從 54.7% 升至 57.9%
  • 知識工作綜合分數:從 1,753 進步至 1,890

在長時間自主編碼任務上,Opus 4.8 的表現據第三方評測已超越 GPT-5.5 Instant。資深 LLM 觀察者 Simon Willison 形容此次升級為「幅度有限但確實可感的一步」——這一評估與開發者早期測試體驗高度吻合。模型並非跳躍至能力前沿之外,而是以顯著提升的可靠性向前沿持續施壓,尤其在需要長時間自主運作、無需人類介入的場景中改善最為明顯。

定價維持不變:每百萬輸入 Token 5 美元、輸出 25 美元;Prompt Caching 最多可省 90%,批次處理省 50%。這個定價區間與 GPT-5.5 相當,但在代理程式評測上具備明顯優勢,競爭定位合理清晰。

Fast Mode 費用降至三分之一

對許多生產環境用戶而言,最直接的利好是 Fast Mode 費用大幅下降。Fast Mode 能讓 Claude Opus 以 2.5 倍速度輸出,Opus 4.8 版本的費用僅為前代的三分之一——此一改善讓速度方案得以擴展至對延遲敏感的客戶端應用場景,毋須再退而求其次使用能力較弱的小型模型。

Fast Mode 最初的定位是「速度優先、精準度次之」的工作負載選項。三倍降價實際上使這個方案成為絕大多數使用情境的首選,除非任務本身需要多小時的深度自主推理,大幅擴展了 Opus 級智慧的可觸及市場。

Dynamic Workflows:百代理平行作業

與 Opus 4.8 一同發布的技術亮點,是目前在 Claude Code 內以研究預覽形式開放的 Dynamic Workflows。這項功能允許 Claude 在接到大型任務時:先生成結構化計畫,接著同時派出數百個平行子代理各自執行計畫的一部分,最後整合並驗證輸出後才回傳結果給用戶。

實際意義在於:Claude Code 可處理的任務規模出現質的飛躍。此前,Claude Code 的工作階段受限於循序脈絡——Claude 一次只能追求一條執行路徑,使得大規模程式碼重構、完整測試套件生成或跨多儲存庫遷移等工作,往往需要開發者手動分拆成多個子任務。

Dynamic Workflows 將 Claude Code 從「循序執行者」轉型為「任務協調者」。Anthropic 描述此功能為讓 Claude 能「規劃工作、在單一工作階段內運行數百個平行子代理,並在回傳結果前驗證輸出」。這一架構與 LangGraph、AutoGen 等外部多代理框架試圖透過外部鷹架實現的目標高度相似,差異在於 Anthropic 將協調邏輯直接內建於模型執行循環中,並在每個代理邊界套用安全與對齊約束。

功能目前仍為研究預覽,存取受限且 API 介面可能變動。但架構方向已清晰表明:Anthropic 正將 Claude Code 定位為與專業多代理框架直接競爭的平台,而非單純作為這些框架的第一方介面。

誠實性:作為可量測的能力屬性

Anthropic 對 Opus 4.8 的另一項重要主張是「不確定性誠實承認」的改善。較早的 Opus 版本和多數前沿 LLM 一樣,傾向在證據薄弱時仍做出確定性表述——這個行為在生產環境的代理系統中會造成連鎖錯誤:多步驟任務初期的一個錯誤假設,可能演變成代價高昂的系統性偏差。

Anthropic 表示 Opus 4.8 在「欠缺足夠資訊時主動告知」的比率有可量測的提升,同時「以結論偽裝的無根據聲明」明顯減少。這是校準能力的提升,而非原始效能的跳躍,但對部署 Claude 於高風險領域(法律、金融、醫療、國防)的企業客戶而言,校準準確度的重要性絲毫不遜於評測分數。

Mythos 級:下一代已在路上

本次發布還包含首次公開提及的「Mythos 級」模型——暗示一個遠超當前 Opus 家族的全新層級。Anthropic 未提供時程或技術規格,但措辭刻意而為:公司將 Opus 4.8 定位為在特定行為維度上達到「接近 Mythos 級的對齊水準」,暗示 Mythos 級模型將帶來質的飛躍,而非漸進式的評測分數提升。

這個代號呼應了前沿 AI 命名慣例的整體趨勢——OpenAI 的 o 系列、Google DeepMind 的 Gemini 3.x 堆疊——各大實驗室開始以模型世代作為敘事弧線。Mythos 明確的「對齊導向」定位也暗示其差異化將部分建立在安全屬性,而非單純效能之上——這與 Anthropic 的品牌定位深度契合。

GitHub Copilot:觸及億級開發者社群

Claude Opus 4.8 現已在 GitHub Copilot 的企業與進階方案中作為可選模型正式上線,讓 Anthropic 得以觸及 GitHub 超過 1 億用戶的開發者社群。開發者可以在 Copilot 中為複雜代理任務指定 Opus 4.8,同時對例行程式碼補全保留較小、較快的模型選項。

將 Opus 4.8 直接嵌入開發者主要工作環境,實現零上下文切換,等同於以主場方式與 OpenAI 自家模型競爭——而 OpenAI 模型長期以來在 Microsoft-GitHub 生態系中享有先發優勢。

競爭格局下的戰略定位

Claude Opus 4.8 在市場移動速度空前的時刻到來。OpenAI 本月將 GPT-5.5 Instant 設為 ChatGPT 預設模型;Google Gemini 3.5 Flash 在速度與多模態上積極進逼;DeepSeek V4 Pro 永久降價重塑市場成本預期。Anthropic 的策略清晰:在對齊能力與代理可靠性上守住高端定位,同時透過大幅降低 Fast Mode 費用,縮小讓 Opus 級模型對延遲敏感場景不可及的成本差距。

Mythos 的預告是更深遠的信號。若 Anthropic 在 2026 年下半年真正交付一個全新能力層級,目前各大實驗室在評測上僅差距幾個百分點的競爭格局可能快速改變。對正在評估多年期 AI 平台承諾的企業客戶而言,這個信號值得高度關注。


Claude Opus 4.8 即日起可透過 Anthropic API 及 Claude Code 取得。Dynamic Workflows 以研究預覽形式向 Claude Code 用戶開放。定價與 Opus 4.7 保持一致。

anthropic claude opus ai模型 代理AI 開發者工具 大型語言模型
分享

相關報導

Code with Claude 2026:Anthropic發布能自我改進的智慧代理——夢境記憶、成果自評與平行編排

在5月6日舊金山舉行的第二屆年度開發者大會上,Anthropic為Claude Managed Agents發布了三項重大新功能:Dreaming(讓代理在會話間自我改進的記憶整合)、Outcomes(使用獨立評估代理的自評循環),以及Multiagent Orchestration(將任務分配給平行運作的專業子代理的協調器)。法律AI公司Harvey表示,使用新功能後任務完成率提升了六倍。

1 分鐘閱讀

Anthropic《2026 代理式編程趨勢報告》:委派落差與編排時代的到來

Anthropic 最新行業報告揭示,開發者如今在 60% 的工作中使用 AI,但能完全委派給代理執行的任務僅佔 0–20%——業界正在全力縮小這道「委派落差」。報告梳理八大趨勢,描繪軟體開發從人工敲鍵到多代理系統自主運行數小時的轉變,並以「節省 50 萬工時」與「百萬行代碼遷移達 99.9% 準確率」等案例佐證。

1 分鐘閱讀