Kimi K2.6 登頂 SWE-Bench：中國開源模型首度超越 GPT-5.4 與 Claude Opus

Moonshot AI 於4月20日發布的 Kimi K2.6——一個兆參數量級的開源模型——在 SWE-Bench Pro 編程基準測試中以58.6%的得分，首度超越 OpenAI GPT-5.4（57.7%）及 Anthropic Claude Opus 4.6（53.4%）。支援300個並行子代理、採用 Modified MIT 授權開源，K2.6 顯示中國開源 AI 研究已能在最關鍵的工程能力測試上，與全球頂尖的封閉式系統一較高下。

2026年5月4日 1 分鐘閱讀

多年來，前沿 AI 模型的敘事一直相當簡單：最強大的系統必定是封閉的、專有的，且來自美國。這個故事愈來愈難繼續說下去。

4月20日，總部位於北京、成立於2023年的 Moonshot AI 發布了 Kimi K2.6——一個兆參數量級的混合專家架構（MoE）模型，其基準測試成績令許多人瞠目。K2.6 在 SWE-Bench Pro 上拿到58.6%的分數，超越 OpenAI GPT-5.4 的57.7%，大幅領先 Anthropic Claude Opus 4.6 的53.4%。模型權重以 Modified MIT 授權完全公開。

SWE-Bench Pro 究竟在測什麼

SWE-Bench 已成為業界最受信任的 AI 編程助理基準，原因在於它測試的是純粹程式生成所無法反映的能力：自主解決來自真實 GitHub 儲存庫的生產級問題。Pro 變體從 Python、Rust、Go 與 TypeScript 多個高複雜度代碼庫中精選任務，在這個標準上能達到50%以上的模型，通常被視為具備專家級工程能力。

在 K2.6 之前，所有 SWE-Bench Pro 超過55%的模型，清一色是封閉的專有系統——GPT-5.4、Claude Opus 4.6、Google Gemini 3.1 Pro 等。K2.6 的58.6%讓它成為第一個突破這條線的開源模型，更重要的是，第一個直接超越 GPT-5.4 的開源模型。

此外，K2.6 在原始版 SWE-Bench Verified 上拿到80.2%，在評估命令列與系統程式設計的 Terminal-Bench 2.0 上則達到66.7%。

支撐亮眼成績的代理群架構

K2.6 相對於前代 K2.5 的技術飛躍，不只在於原始性能，更在於代理架構的根本升級。K2.5 最多可協調100個子代理、執行1,500個並行步驟；K2.6 則擴展至300個子代理，橫跨4,000個協調步驟——並行能力提升3倍，協調行動深度幾乎增長3倍。

這一點至關重要，因為現實世界中最複雜的軟體工程任務——涉及跨多檔案重構、依賴鏈分析與跨儲存庫上下文管理的工作——無法靠單次前向推理解決。這需要一個能夠生成專業子代理、協調輸出、解決衝突並整合結果的代理系統。K2.6 的群體架構正是為此類問題量身打造。

模型支援256K tokens 的上下文視窗，足以在不分段處理的情況下容納大型代碼庫。在啟用工具的 Humanity’s Last Exam Full（HLE-Full）測試中，K2.6 得到54.0分，超越 GPT-5.4（52.1）、Claude Opus 4.6（53.0）與 Gemini 3.1 Pro（51.4）——顯示其強大的編程能力背後，是紮實的推理能力，而非針對特定任務的窄化微調。

DeepSearchQA 的訊號

還有一個較少被關注但值得深究的基準結果：K2.6 在 DeepSearchQA 上拿到92.5%的 F1 分數。這個基準評估模型執行多步驟網路研究、從不同來源整合資訊並產生準確事實答案的能力，是在真實環境中運作的代理系統所必備的核心技能。

92.5%的 F1 分數讓 K2.6 跻身目前最強的研究型代理之列，不論開源或封閉——再次印證這是一個對廣泛代理任務皆具備強大能力的模型，而非僅針對編程基準窄化優化的系統。

中國開源 AI 浪潮中的 Kimi K2.6

K2.6 的出現，是一個已醞釀逾一年的趨勢的最新體現。DeepSeek V4 在4月底的發布，已展示中國實驗室能在通用推理上比肩前沿專有模型。智譜 AI 的 GLM 5.1 本季稍早也在 SWE-Bench 上交出亮眼成績。阿里巴巴的 Qwen 3.6 已在亞洲企業環境中廣泛部署。

Kimi K2.6 的獨特之處，在於其對「代理式編程」的專注——不只是寫程式碼，而是能自主地從問題描述出發，一路解決到可用的 Pull Request。這正是商業化的甜蜜點：全球每一家大型軟體公司都在試圖自動化這個工作流程，而能夠可靠完成它的工具，將擁有強大的企業授權議價能力。

Moonshot AI 在業界的曝光度不及 DeepSeek 或智譜，但 K2.6 的發布清楚說明，這家公司一直在最高水準上競爭。這家公司以2023年的10億美元種子輪創業，始終高度專注於長上下文推理與代理系統——K2.6 正是這份持續投入的成果。

對封閉模型生態系的衝擊

K2.6 帶來的連鎖效應，對封閉模型業者而言並不舒適。OpenAI、Anthropic 和 Google 的商業模式，部分建立在「最強大的模型將維持專有」這個前提上——這個前提讓他們在企業定價上握有籌碼，也讓開源替代品難以追至前沿水準。

K2.6 直接挑戰了這個假設。企業開發者今天可以下載 K2.6 的模型權重、在自家基礎設施上運行，並部署一個在最受業界重視的軟體工程基準上超越 GPT-5.4 的代理——無需支付按 token 計費的 API 費用、無需將程式碼傳送至外部伺服器、也無需受使用條款限制。

封閉模型業者過去的反駁通常是：開源模型落後前沿六到十二個月。K2.6 的出現顯示，至少在編程任務上，這個差距已趨近於零。更廣泛的能力是否已全面追平，仍有待更多測試驗證；但舉證責任已經轉移。下一代專有模型，必須以今日最強的開源替代品為基準，而非去年的版本，才能說服企業為此付出溢價。

Kimi K2.6 已以 Modified MIT 授權發布於 Hugging Face，並可透過 Kimi API 平台使用。

資料來源

open-source kimi moonshot-ai china-ai coding swe-bench agentic-ai llm

Kimi K2.6 登頂 SWE-Bench：中國開源模型首度超越 GPT-5.4 與 Claude Opus

SWE-Bench Pro 究竟在測什麼

支撐亮眼成績的代理群架構

DeepSearchQA 的訊號

中國開源 AI 浪潮中的 Kimi K2.6

對封閉模型生態系的衝擊

資料來源

相關報導

Google 發布 Gemma 4，首度採用 Apache 2.0 授權，企業部署障礙一舉清除

Z.ai 的 GLM-5.1 成為首個登頂 SWE-Bench Pro 的開源模型——全程跑在華為晶片上

DeepSeek V4 正式發布：1.6 兆參數、每百萬 token 僅 $0.28，直接向西方叫陣