Kimi K2.6 登頂 SWE-Bench:中國開源模型首度超越 GPT-5.4 與 Claude Opus
Moonshot AI 於4月20日發布的 Kimi K2.6——一個兆參數量級的開源模型——在 SWE-Bench Pro 編程基準測試中以58.6%的得分,首度超越 OpenAI GPT-5.4(57.7%)及 Anthropic Claude Opus 4.6(53.4%)。支援300個並行子代理、採用 Modified MIT 授權開源,K2.6 顯示中國開源 AI 研究已能在最關鍵的工程能力測試上,與全球頂尖的封閉式系統一較高下。
多年來,前沿 AI 模型的敘事一直相當簡單:最強大的系統必定是封閉的、專有的,且來自美國。這個故事愈來愈難繼續說下去。
4月20日,總部位於北京、成立於2023年的 Moonshot AI 發布了 Kimi K2.6——一個兆參數量級的混合專家架構(MoE)模型,其基準測試成績令許多人瞠目。K2.6 在 SWE-Bench Pro 上拿到58.6%的分數,超越 OpenAI GPT-5.4 的57.7%,大幅領先 Anthropic Claude Opus 4.6 的53.4%。模型權重以 Modified MIT 授權完全公開。
SWE-Bench Pro 究竟在測什麼
SWE-Bench 已成為業界最受信任的 AI 編程助理基準,原因在於它測試的是純粹程式生成所無法反映的能力:自主解決來自真實 GitHub 儲存庫的生產級問題。Pro 變體從 Python、Rust、Go 與 TypeScript 多個高複雜度代碼庫中精選任務,在這個標準上能達到50%以上的模型,通常被視為具備專家級工程能力。
在 K2.6 之前,所有 SWE-Bench Pro 超過55%的模型,清一色是封閉的專有系統——GPT-5.4、Claude Opus 4.6、Google Gemini 3.1 Pro 等。K2.6 的58.6%讓它成為第一個突破這條線的開源模型,更重要的是,第一個直接超越 GPT-5.4 的開源模型。
此外,K2.6 在原始版 SWE-Bench Verified 上拿到80.2%,在評估命令列與系統程式設計的 Terminal-Bench 2.0 上則達到66.7%。
支撐亮眼成績的代理群架構
K2.6 相對於前代 K2.5 的技術飛躍,不只在於原始性能,更在於代理架構的根本升級。K2.5 最多可協調100個子代理、執行1,500個並行步驟;K2.6 則擴展至300個子代理,橫跨4,000個協調步驟——並行能力提升3倍,協調行動深度幾乎增長3倍。
這一點至關重要,因為現實世界中最複雜的軟體工程任務——涉及跨多檔案重構、依賴鏈分析與跨儲存庫上下文管理的工作——無法靠單次前向推理解決。這需要一個能夠生成專業子代理、協調輸出、解決衝突並整合結果的代理系統。K2.6 的群體架構正是為此類問題量身打造。
模型支援256K tokens 的上下文視窗,足以在不分段處理的情況下容納大型代碼庫。在啟用工具的 Humanity’s Last Exam Full(HLE-Full)測試中,K2.6 得到54.0分,超越 GPT-5.4(52.1)、Claude Opus 4.6(53.0)與 Gemini 3.1 Pro(51.4)——顯示其強大的編程能力背後,是紮實的推理能力,而非針對特定任務的窄化微調。
DeepSearchQA 的訊號
還有一個較少被關注但值得深究的基準結果:K2.6 在 DeepSearchQA 上拿到92.5%的 F1 分數。這個基準評估模型執行多步驟網路研究、從不同來源整合資訊並產生準確事實答案的能力,是在真實環境中運作的代理系統所必備的核心技能。
92.5%的 F1 分數讓 K2.6 跻身目前最強的研究型代理之列,不論開源或封閉——再次印證這是一個對廣泛代理任務皆具備強大能力的模型,而非僅針對編程基準窄化優化的系統。
中國開源 AI 浪潮中的 Kimi K2.6
K2.6 的出現,是一個已醞釀逾一年的趨勢的最新體現。DeepSeek V4 在4月底的發布,已展示中國實驗室能在通用推理上比肩前沿專有模型。智譜 AI 的 GLM 5.1 本季稍早也在 SWE-Bench 上交出亮眼成績。阿里巴巴的 Qwen 3.6 已在亞洲企業環境中廣泛部署。
Kimi K2.6 的獨特之處,在於其對「代理式編程」的專注——不只是寫程式碼,而是能自主地從問題描述出發,一路解決到可用的 Pull Request。這正是商業化的甜蜜點:全球每一家大型軟體公司都在試圖自動化這個工作流程,而能夠可靠完成它的工具,將擁有強大的企業授權議價能力。
Moonshot AI 在業界的曝光度不及 DeepSeek 或智譜,但 K2.6 的發布清楚說明,這家公司一直在最高水準上競爭。這家公司以2023年的10億美元種子輪創業,始終高度專注於長上下文推理與代理系統——K2.6 正是這份持續投入的成果。
對封閉模型生態系的衝擊
K2.6 帶來的連鎖效應,對封閉模型業者而言並不舒適。OpenAI、Anthropic 和 Google 的商業模式,部分建立在「最強大的模型將維持專有」這個前提上——這個前提讓他們在企業定價上握有籌碼,也讓開源替代品難以追至前沿水準。
K2.6 直接挑戰了這個假設。企業開發者今天可以下載 K2.6 的模型權重、在自家基礎設施上運行,並部署一個在最受業界重視的軟體工程基準上超越 GPT-5.4 的代理——無需支付按 token 計費的 API 費用、無需將程式碼傳送至外部伺服器、也無需受使用條款限制。
封閉模型業者過去的反駁通常是:開源模型落後前沿六到十二個月。K2.6 的出現顯示,至少在編程任務上,這個差距已趨近於零。更廣泛的能力是否已全面追平,仍有待更多測試驗證;但舉證責任已經轉移。下一代專有模型,必須以今日最強的開源替代品為基準,而非去年的版本,才能說服企業為此付出溢價。
Kimi K2.6 已以 Modified MIT 授權發布於 Hugging Face,並可透過 Kimi API 平台使用。