跳至主要內容
FAQ

MiniMax M3:以前沿模型 5% 的成本,在程式評測上超越 GPT-5.5

中國 AI 新創 MiniMax 在六月一日發布 M3,這款開放權重的多模態模型在 SWE-Bench Pro 程式評測上超越 GPT-5.5 和 Gemini 3.1 Pro,每 token 運算量卻只有前一代的 1/20。支援百萬 token 上下文,並從預訓練階段就內建多模態能力,M3 是目前為止開源模型對閉源前沿模型最有力的挑戰。

1 分鐘閱讀

六月一日,MiniMax 發布 M3,這家中國 AI 新創不只是推出了一款新模型,更端出了一個讓開源社群為之停頓的評測成績。M3 在 SWE-Bench Pro 這個目前最具挑戰性的軟體工程評測上拿下 59.0%,超越 OpenAI 的 GPT-5.5,也超越 Google 的 Gemini 3.1 Pro,而它是一款開放權重模型。MiniMax 自測的運算成本,大約是同等前沿閉源模型的 5 至 10%。

過去十八個月,AI 圈反覆辯論開源能否追上閉源前沿實驗室。M3 的出現,是目前最清晰的證據:差距正在以超乎預期的速度縮小。

實現效率躍升的架構突破

M3 背後的效率優勢並非偶然,而是從根本重新設計架構的成果。MiniMax 以自研的稀疏注意力機制 MSA(MiniMax Sparse Attention)為核心,直接攻克 Transformer 模型中最耗算力的瓶頸:上下文長度與計算量之間的關係。

標準注意力機制的計算量隨上下文長度呈二次方增長。M3 支援的百萬 token 上下文窗口,若採用密集注意力,推論成本將高到幾乎無法實際部署。MSA 以稀疏注意力取代密集注意力,在維持推理品質的前提下大幅降低計算需求,效果相當顯著:在百萬 token 上下文長度下,每 token 的計算量僅為前一代的 1/20,預填充速度提升 9 倍,解碼速度提升 15 倍。

這些效率提升不只是數字遊戲。M3 在 Terminal-Bench 2.1 上拿下 66.0%,在 MCP Atlas 上得到 74.2%——這兩項測試都要求在大範圍上下文中維持長時間推理,接近開發者在實際工作中的使用場景,而非精心設計的刷榜評測。

從零開始的原生多模態

大多數多模態語言模型的本質是文字模型,再把視覺能力接上去。圖像和影片理解通常由獨立的編碼器處理,再把表示向量注入文字模型,形成一種「拼接」式架構——功能可用,但遠稱不上無縫。

MiniMax 對 M3 採取了截然不同的做法:從 MiniMax 所稱的「第零步」就設計成原生多模態。他們沒有在預訓練完成的文字模型上再接視覺系統,而是從頭重新設計資料處理管線,以自然交錯的文字、圖像和影片序列進行預訓練,總訓練語料超過 100 兆 token。最終得到的模型,不是把視覺當作附加功能,而是在同一個表示空間中對文字、圖像和影片進行統一推理。

M3 支援文字、圖像、影片輸入,輸出文字,並具備電腦操作能力,可以直接操控圖形化介面。原生多模態對 AI 代理任務尤為重要——當模型需要觀察並與視覺環境互動時,M3 的架構能以遠比拼接式更自然的方式處理這類任務。

評測成績的實際意義

SWE-Bench Pro 的成績值得仔細解讀。原版 SWE-Bench 測試模型能否修復真實 GitHub 倉庫中的軟體工程問題。SWE-Bench Pro 是難度更高的版本,採用更複雜、較少被研究的程式碼庫,大幅降低訓練資料污染的風險,對真實推理能力的要求也更高。

M3 在 SWE-Bench Pro 的 59.0% 是目前開放權重模型中的最高成績,與 Gemini 3.1 Pro 並列,超越 GPT-5.5。作為對比,目前最佳閉源模型在原版 SWE-Bench Verified 上的成績約在 70% 至 82% 之間,顯示開源與閉源之間仍有落差,但這個落差正在以令人驚訝的速度縮小。

在 Terminal-Bench 2.1(評估長時間終端軟體工程任務)上,M3 的 66.0% 讓它穩居現有模型的頂尖梯隊。KernelBench Hard(評估撰寫高效 GPU kernel 的能力)得到 28.8%,表現較為適中,但相較於成本高出許多倍的閉源模型,依然具備競爭力。

開放權重與取得門檻

MiniMax 在發布時宣告,將在十天內以允許商業使用的寬鬆授權釋出模型權重。截至本文發布,這批權重應已在 Hugging Face 上公開,讓開發者可以在自有基礎設施上部署 M3,無需依賴 API。

託管 API 的定價也反映出效率優勢:基本方案每月 20 美元提供約 17 億 token,進階方案 50 美元,企業方案 120 美元。按每 token 計算的費率,接近中階模型的定價,而非前沿模型的高額收費,儘管它在特定任務上已達到前沿水準。

中國開源模型的時代節點

M3 的問世,恰逢中國 AI 實驗室在開源前沿上達到異常高水準的競爭力的時刻。DeepSeek 在四月底發布 V4 Pro,帶來 1.6 兆參數的混合專家架構,在程式評測上媲美前沿模型,推論成本卻低得多。Qwen 3.7 Max 在網頁開發評測上排名第四。如今 MiniMax 又補上了一款開放權重的多模態、百萬上下文模型。

這個趨勢並非偶然。受到美國出口管制的影響,中國實驗室在取得最新 NVIDIA GPU 硬體上受到更多限制,迫使他們把資源投入架構效率的提升——不靠堆疊算力,而是讓每一個 FLOP 提取更多能力。這一代模型因此在架構上更為精益,而這種精益如今正在評測上轉化為「用更少成本達成相近性能」的競爭優勢。

對整個產業而言,這意味著一件重要的事:如果開放權重模型能在特定能力領域以 5 至 10% 的成本提供相當於前沿模型的表現,依賴閉源 API 的經濟理由就會大幅弱化。需要程式輔助、長文本分析或多模態能力的開發者,越來越不需要綁定在特定廠商身上。

限制與待解問題

M3 並非萬用的前沿替代品。在複雜多步驟推理任務上,它的整體能力可能仍落後於最頂尖的閉源模型。MiniMax 是中國公司,對有資料在地化要求或政府合約限制的組織而言,存在合規方面的疑慮。

開放模型的標準注意事項同樣適用:MiniMax 掌控訓練與微調資料,模型在大規模部署下的安全性表現,尚未經過與頂級 AI 安全研究實驗室同等程度的外部評估。

儘管如此,對於正在建構 AI 代理程式工作流程、長文本分析管線或多模態應用的大多數開發者而言,M3 代表了迄今為止最具說服力的案例:開源生態系正在成為閉源前沿 API 的真正替代選項。評測數字顯示,架構上的選擇奏效了;定價則暗示,這個競爭不會只停留在研究層面太久。

MiniMax 開源AI 大型語言模型 SWE-bench 多模態 程式AI
分享

相關報導

DeepSeek 首輪融資逼近 740 億美元,估值衝上 590 億美元創歷史新高

中國 AI 實驗室 DeepSeek 正在完成史上首輪外部融資,籌資規模約 74 億美元(約新台幣 2,400 億元),估值接近 600 億美元,較四月份暴增六倍。騰訊、寧德時代、網易與京東等策略投資人領軍入局,創辦人梁文鋒本人更個人認購約 29 億美元,充分展現其對 DeepSeek 長期 AGI 使命的信心。

1 分鐘閱讀

Anthropic 解密最強 AI:Claude Fable 5 正式對外公開

Anthropic 於 6 月 9 日正式向公眾開放 Claude Fable 5,這是該公司首次將 Mythos 等級的旗艦模型釋出給一般開發者與消費者。Fable 5 在 SWE-bench Verified 拿下 95% 的高分,並在高風險領域內建硬性安全護欄,定價為前代 Opus 4.8 的兩倍。更耐人尋味的是,這款模型的發布時間點恰在公司研究人員剛對外示警「AI 正變得過於危險」的數天之後。

1 分鐘閱讀