MiniMax M3：以前沿模型 5% 的成本，在程式評測上超越 GPT-5.5

中國 AI 新創 MiniMax 在六月一日發布 M3，這款開放權重的多模態模型在 SWE-Bench Pro 程式評測上超越 GPT-5.5 和 Gemini 3.1 Pro，每 token 運算量卻只有前一代的 1/20。支援百萬 token 上下文，並從預訓練階段就內建多模態能力，M3 是目前為止開源模型對閉源前沿模型最有力的挑戰。

1 小時前 1 分鐘閱讀

六月一日，MiniMax 發布 M3，這家中國 AI 新創不只是推出了一款新模型，更端出了一個讓開源社群為之停頓的評測成績。M3 在 SWE-Bench Pro 這個目前最具挑戰性的軟體工程評測上拿下 59.0%，超越 OpenAI 的 GPT-5.5，也超越 Google 的 Gemini 3.1 Pro，而它是一款開放權重模型。MiniMax 自測的運算成本，大約是同等前沿閉源模型的 5 至 10%。

過去十八個月，AI 圈反覆辯論開源能否追上閉源前沿實驗室。M3 的出現，是目前最清晰的證據：差距正在以超乎預期的速度縮小。

實現效率躍升的架構突破

M3 背後的效率優勢並非偶然，而是從根本重新設計架構的成果。MiniMax 以自研的稀疏注意力機制 MSA（MiniMax Sparse Attention）為核心，直接攻克 Transformer 模型中最耗算力的瓶頸：上下文長度與計算量之間的關係。

標準注意力機制的計算量隨上下文長度呈二次方增長。M3 支援的百萬 token 上下文窗口，若採用密集注意力，推論成本將高到幾乎無法實際部署。MSA 以稀疏注意力取代密集注意力，在維持推理品質的前提下大幅降低計算需求，效果相當顯著：在百萬 token 上下文長度下，每 token 的計算量僅為前一代的 1/20，預填充速度提升 9 倍，解碼速度提升 15 倍。

這些效率提升不只是數字遊戲。M3 在 Terminal-Bench 2.1 上拿下 66.0%，在 MCP Atlas 上得到 74.2%——這兩項測試都要求在大範圍上下文中維持長時間推理，接近開發者在實際工作中的使用場景，而非精心設計的刷榜評測。

從零開始的原生多模態

大多數多模態語言模型的本質是文字模型，再把視覺能力接上去。圖像和影片理解通常由獨立的編碼器處理，再把表示向量注入文字模型，形成一種「拼接」式架構——功能可用，但遠稱不上無縫。

MiniMax 對 M3 採取了截然不同的做法：從 MiniMax 所稱的「第零步」就設計成原生多模態。他們沒有在預訓練完成的文字模型上再接視覺系統，而是從頭重新設計資料處理管線，以自然交錯的文字、圖像和影片序列進行預訓練，總訓練語料超過 100 兆 token。最終得到的模型，不是把視覺當作附加功能，而是在同一個表示空間中對文字、圖像和影片進行統一推理。

M3 支援文字、圖像、影片輸入，輸出文字，並具備電腦操作能力，可以直接操控圖形化介面。原生多模態對 AI 代理任務尤為重要——當模型需要觀察並與視覺環境互動時，M3 的架構能以遠比拼接式更自然的方式處理這類任務。

評測成績的實際意義

SWE-Bench Pro 的成績值得仔細解讀。原版 SWE-Bench 測試模型能否修復真實 GitHub 倉庫中的軟體工程問題。SWE-Bench Pro 是難度更高的版本，採用更複雜、較少被研究的程式碼庫，大幅降低訓練資料污染的風險，對真實推理能力的要求也更高。

M3 在 SWE-Bench Pro 的 59.0% 是目前開放權重模型中的最高成績，與 Gemini 3.1 Pro 並列，超越 GPT-5.5。作為對比，目前最佳閉源模型在原版 SWE-Bench Verified 上的成績約在 70% 至 82% 之間，顯示開源與閉源之間仍有落差，但這個落差正在以令人驚訝的速度縮小。

在 Terminal-Bench 2.1（評估長時間終端軟體工程任務）上，M3 的 66.0% 讓它穩居現有模型的頂尖梯隊。KernelBench Hard（評估撰寫高效 GPU kernel 的能力）得到 28.8%，表現較為適中，但相較於成本高出許多倍的閉源模型，依然具備競爭力。

開放權重與取得門檻

MiniMax 在發布時宣告，將在十天內以允許商業使用的寬鬆授權釋出模型權重。截至本文發布，這批權重應已在 Hugging Face 上公開，讓開發者可以在自有基礎設施上部署 M3，無需依賴 API。

託管 API 的定價也反映出效率優勢：基本方案每月 20 美元提供約 17 億 token，進階方案 50 美元，企業方案 120 美元。按每 token 計算的費率，接近中階模型的定價，而非前沿模型的高額收費，儘管它在特定任務上已達到前沿水準。

中國開源模型的時代節點

M3 的問世，恰逢中國 AI 實驗室在開源前沿上達到異常高水準的競爭力的時刻。DeepSeek 在四月底發布 V4 Pro，帶來 1.6 兆參數的混合專家架構，在程式評測上媲美前沿模型，推論成本卻低得多。Qwen 3.7 Max 在網頁開發評測上排名第四。如今 MiniMax 又補上了一款開放權重的多模態、百萬上下文模型。

這個趨勢並非偶然。受到美國出口管制的影響，中國實驗室在取得最新 NVIDIA GPU 硬體上受到更多限制，迫使他們把資源投入架構效率的提升——不靠堆疊算力，而是讓每一個 FLOP 提取更多能力。這一代模型因此在架構上更為精益，而這種精益如今正在評測上轉化為「用更少成本達成相近性能」的競爭優勢。

對整個產業而言，這意味著一件重要的事：如果開放權重模型能在特定能力領域以 5 至 10% 的成本提供相當於前沿模型的表現，依賴閉源 API 的經濟理由就會大幅弱化。需要程式輔助、長文本分析或多模態能力的開發者，越來越不需要綁定在特定廠商身上。

限制與待解問題

M3 並非萬用的前沿替代品。在複雜多步驟推理任務上，它的整體能力可能仍落後於最頂尖的閉源模型。MiniMax 是中國公司，對有資料在地化要求或政府合約限制的組織而言，存在合規方面的疑慮。

開放模型的標準注意事項同樣適用：MiniMax 掌控訓練與微調資料，模型在大規模部署下的安全性表現，尚未經過與頂級 AI 安全研究實驗室同等程度的外部評估。

儘管如此，對於正在建構 AI 代理程式工作流程、長文本分析管線或多模態應用的大多數開發者而言，M3 代表了迄今為止最具說服力的案例：開源生態系正在成為閉源前沿 API 的真正替代選項。評測數字顯示，架構上的選擇奏效了；定價則暗示，這個競爭不會只停留在研究層面太久。

資料來源

MiniMax 開源AI 大型語言模型 SWE-bench 多模態程式AI