Cursor Composer 2.5:以十分之一的成本媲美頂級 AI,基礎是中國開源模型
Cursor 於 5 月 18 日發布 Composer 2.5,這款基於月之暗面(Moonshot AI)開源 Kimi K2.5 構建的程式碼代理,在 SWE-Bench 多語言測試中達到 79.8%,媲美 Claude Opus 4.7 和 GPT-5.5,但推理成本僅為後者的十分之一。這次發布引發了一個根本問題:昂貴的前沿模型授權在開發者工具領域還有多大的立足之地?
5 月 18 日,Cursor 發布 Composer 2.5,表面上看,這只是一次例行的模型更新:新版本、改善的基準分數、限時優惠定價。但技術細節透露的,是一個截然不同的故事。
Composer 2.5 在 SWE-Bench 多語言測試中取得 79.8%——這是評估 AI 自主解決真實 GitHub 問題能力的業界主要基準——並在 Cursor 自家的 CursorBench v3.1 中達到 63.2%。這兩個分數將它置於與 Claude Opus 4.7 和 GPT-5.5 相當的水準,誤差在統計雜訊範圍之內。
但定價差距完全不在統計雜訊之列。Composer 2.5 標準層的定價是每百萬輸入 token 0.5 美元、每百萬輸出 token 2.5 美元。Claude Opus 4.7 和 GPT-5.5 的定價均在每百萬 token 約 15 美元左右。標準層的 Composer 2.5,成本大約是它們的十分之一。
驅動這一切的基礎模型,是 Kimi K2.5——由月之暗面(Moonshot AI,阿里巴巴與騰訊投資的中國 AI 新創)發布的開源模型。
Cursor 是如何做到的
Composer 2.5 的架構,折射出對「以程式設計為核心的 AI 究竟需要什麼」越來越成熟的理解。Cursor 團隊並非直接拿 Kimi K2.5 的開放權重就發布,而是在基礎模型之上針對性地應用了三項訓練改進:
文字回饋強化學習。 傳統方式僅在整個程式碼會話結束後提供獎勵訊號(程式碼跑通了嗎?),Cursor 的訓練流程則在模型本可做出更好決策的特定軌跡節點插入局部反饋。一次錯誤的工具呼叫、一個對需求的錯誤理解、一次多餘的文件讀取——每一個都在訓練過程中得到有針對性的糾正,而非被稀釋進最終任務的整體獎勵。團隊將此描述為在「模型偏離的那一刻」提供反饋,而不是等到最終結果再評判。
25 倍合成任務規模。 Composer 2.5 的訓練數據包含約為前代 25 倍的合成程式設計任務,其中特別引入了「功能刪除」重建謎題——要求模型從周圍上下文中充分理解現有程式碼庫,並重建一個已被移除的功能。這訓練了一種標準程式碼生成基準無法直接衡量的深度理解能力。
混合專家(MoE)基礎設施。 模型採用分片 Muon 優化器和雙網格混合分片數據並行(HSDP)訓練架構,在保持有競爭力的能力水準的同時,維持 MoE 架構的低每 token 推理成本。
Kimi K2.5 的開源基礎
月之暗面的 Kimi K2.5 開源發布,使 Composer 2.5 成為可能——這在 18 個月前還難以實現。一個足夠強大、可供 Cursor 在其專有程式碼數據上微調、並透過針對性強化學習改進、且推理成本在商業部署上可行的開源基礎模型——這正是開源策略的支持者所預言的果實。
K2.5 是混合專家架構,針對長上下文、工具呼叫密集型任務進行了優化——這與需要執行多步驟工作流程、讀取文件、運行測試並對失敗進行迭代的程式碼代理的運作特性完全吻合。中國開源模型一直在原始基準性能上緊跟頂級私有模型,同時保持明顯更低的推理成本結構,K2.5 是這一模式的典型代表之一。
對 Cursor 而言,一個中國開源 checkpoint,結合 Cursor 的專有微調方法和從 1 億行以上被採納補全及用戶互動數據中提取的訓練數據,最終產出了一個在商業程式設計任務上媲美世界最頂級模型的代理——但所需推理成本遠低於授權運行那些模型的費用。
對前沿模型授權商業模式的衝擊
AI 程式設計工具市場正在經歷結構性的定價轉變。GitHub Copilot 本月切換為用量計費模式。Anthropic 和 OpenAI 繼續以隱含包含開發者在內的一般企業用途對其前沿模型定價。既有的默認假設是:程式碼代理需要前沿級的通用智慧,因此必須以前沿價格計費。
Composer 2.5 挑戰了這一假設。如果一個專門打造、針對任務特化的模型能夠以大約十分之一的推理成本實現前沿級的程式設計性能,那麼在開發者工具中依附於通用前沿模型的溢價,就開始看起來像是市場的錯位定價,而非有充分依據的價格差異。
這並不意味著前沿模型在程式設計領域失去意義。在某些任務上——對全新系統進行架構推理、審查複雜程式碼庫的安全性、調試高度模糊的邊緣情況——通用智慧和廣泛訓練數據可能以基準分數無法衡量的方式起到作用。但對於程式碼代理的日常核心工作——理解需求、閱讀現有程式碼、撰寫正確實現、運行測試套件、調試輸出——專用模型已越來越具有競爭力。
隨著 Composer 2.5 等工具的成熟,更廣泛的趨勢是:開發者工具中的 AI 層可能比 AI 模型廠商預期的商品化得更快。價值可能集中在使用者介面、上下文管理系統、與開發環境的整合,以及從實際開發者使用中衍生的專有數據集——這些都是 Cursor 已積累顯著優勢的層面。
Colossus 2 路線圖
Composer 2.5 並非 Cursor 的最終模型押注。公司在 5 月 18 日的公告中透露,正在與 SpaceXAI 合作訓練一個規模大得多的模型,使用約為當前版本 10 倍的總算力,運行在 Colossus 2 的百萬 H100 等效算力上。
SpaceX 在 2026 年 5 月以傳聞 600 億美元的估值收購了 Cursor,將 Cursor 的開發者平台和專有程式設計數據,與 xAI 的算力基礎設施及 Grok 模型家族的研究能力相結合。Colossus 2 的訓練任務,是這次基礎設施整合的第一個直接產物。
基於此訓練出的模型預計在 2026 年下半年發布。若能在更高的絕對能力水準上維持同樣的性價比優勢,將代表對現有開發者工具前沿模型經濟結構的更深層衝擊——同時也是 Cursor-xAI 組合能否將 Composer 2.5 所展現的效率優勢持續放大的一次檢驗。
對那些已習慣將 Claude 或 GPT 視為工具中默認智慧層的開發者,Cursor 傳遞的訊息愈來愈清晰:智慧正在以你可能預想不到的速度變得廉價,而真正的價值,正在別處悄然積累。