跳至主要內容
FAQ

美團開源 LongCat-2.0:用純國產晶片訓練的首個前沿級 AI 模型

美團在 6 月 30 日開源 LongCat-2.0,這是一個擁有 1.6 兆參數的混合專家模型,完全在 5 萬張國產 AI 晶片組成的叢集上完成預訓練,是史上首次有機構在不依賴輝達、Google TPU 或 AWS 的情況下,完成前沿規模的大型模型完整訓練。此舉正面衝擊美國出口管制政策的核心假設。

1 分鐘閱讀

美國出口管制戰略的核心前提,是「切斷中國取得先進半導體的管道,就能有效延緩其 AI 進展」——這個假設在 2026 年 6 月 30 日出現了決定性的裂縫。美團(中國最大的外賣與本地生活服務平台)當天開源了 LongCat-2.0:一個擁有 1.6 兆參數的混合專家(MoE)語言模型,整個預訓練過程在 5 萬張國產 AI 晶片組成的叢集上完成,全程不依賴輝達 GPU、Google TPU 或任何美國雲端基礎設施。

這是有記錄以來,首次有機構在完全國產硬體上,完成前沿規模大型語言模型的完整預訓練與推論。這個里程碑的象徵意義已足夠震撼,但技術細節讓它更難被輕描淡寫帶過。

用什麼蓋的,怎麼蓋的

LongCat-2.0 採用混合專家架構,參數總量達 1.6 兆,但推論時每個 token 只啟動約 330 至 560 億個參數,讓實際運算成本維持在可控範圍。模型支援 100 萬 token 的上下文視窗,並附帶一個名為 LongCat-Flash-Thinking 的輕量版,美團宣稱其每 token 成本比旗下前代商業模型 Seed 2.0 Pro 低 2.1 倍。

訓練叢集被外界認為主要採用華為昇騰 910C 處理器——這是華為在無法取得台積電先進製程的情況下,自主研發的最強 AI 晶片。研究人員根據美團使用華為集合通訊庫(Collective Communication Library,專為昇騰超節點設計)這一線索,推測底層硬體正是華為昇騰。若屬實,此次訓練將是華為 AI 晶片在前沿模型預訓練上,規模最大的一次公開應用紀錄。

這個區別至關重要。早些時候讓西方 AI 實驗室大受震撼的 DeepSeek-V4-Pro,其國產晶片只用在推論環節——也就是 AI 硬體需求中技術門檻較低的那一半。預訓練前沿模型需要數千張晶片在數週乃至數月內高度協調、持續溝通,對硬體故障、記憶體瓶頸和晶片間延遲的容忍度接近零。美團在沒有輝達的情況下完成這個規模的訓練,是不同量級的技術成就。

基準測試成績與實際意義

美團自行回報的成績相當亮眼:SWE-bench Pro 達到 59.5(GPT-5.5 的公開基準為 58.6)、Terminal-Bench 2.1 達到 70.8、SWE-bench Multilingual(12 種程式語言的跨語種編程評估)達到 77.3。美團宣稱整體性能「媲美 Google Gemini 3.1 Pro」。

但有兩個重要注意事項。第一,這些是自行申報的數字,LongCat-2.0 尚未提交至 LMSYS Chatbot Arena 等第三方中立評測平台。美團自己也坦承,這個模型「在廣泛通用智能代理基準測試上,整體落後於 Anthropic Claude Opus 4.8 等頂尖前沿模型」。LongCat-2.0 的優化重點明顯集中在程式碼任務,而非通用對話或複雜推理。

第二,更關鍵的主張根本不在性能,而在基礎設施。就算 LongCat-2.0 在每項基準上低 10 分,光憑「證明中國能在不依賴美國硬體的情況下完成前沿規模訓練」這一點,它依然是一個地緣政治突破。

開源:放大的戰略信號

美團選擇在 Hugging Face 上以開源授權公開 LongCat-2.0 的模型權重,這個決定所釋放的地緣政治信號,美團在做決策時幾乎不可能沒有盤算。開源一個在國產晶片上訓練的前沿模型,不只是研究貢獻,而是一份公開的概念驗證——其他中國實驗室、國防承包商和國家支持的研究機構都可以在此基礎上複製、改進。完成 1.6 兆參數訓練的方法論、硬體架構、讓昇騰晶片得以運作的軟體工具鏈,現在全都開放檢視。

這也拓展了模型進入全球開發者社群的管道。世界各地的研究人員,只要想研究在非西方硬體上訓練的前沿模型,現在有了具體的參考物件。這種更廣泛的傳播最終是否服務中國的戰略利益,或只是分散了影響力,將是分析師未來數月持續辯論的議題。

對美國出口管制的衝擊

美國商務部工業與安全局(BIS)在過去四年中持續收緊對華先進半導體出口限制,其核心邏輯是:硬體差距將複合成能力差距,讓中國 AI 實驗室至少落後西方競爭者一至兩個世代。H100、A100、降規版 H800 和 A800——每一代管制措施,都是為了維持一道美國 AI 無法被中國輕易跨越的護城河。

LongCat-2.0 並不能證明這些管制毫無用處。這個模型確實有其局限,在編程基準以外的表現落後於西方前沿模型,昇騰 910C 的效率仍不及輝達現行世代的硬體。差距並未完全消除。

但差距已經縮小到足以在特定基準上與 GPT-5.5 一較高下的程度。出口管制戰略從來不是設計來無限期拖延中國——而是設計來爭取時間。華盛頓的政策制定者現在要面對的問題是:爭取時間做什麼,而那段時間究竟有沒有被好好運用?

更大的競賽格局

LongCat-2.0 的出現,正值中國 AI 生態系統競爭力達到現代史上最高點的時刻。DeepSeek 今年早些時候的訓練效率創新,證明中國實驗室在演算法層面已縮小與西方同行的差距;阿里巴巴的 Qwen 系列和百度的 ERNIE 也在多語言任務上展現強勁表現。美團此次的發布,則進一步證明硬體限制——始終是最難繞過的一環——並不是西方戰略家原以為的那道鐵牆。

模型權重已在 Hugging Face 上公開。它所訴說的故事,不再只是假設。


LongCat-2.0 模型權重已公開於 Hugging Face,發布日期為 2026 年 6 月 30 日。

中國 美團 LongCat 國產晶片 華為昇騰 開源 出口管制 晶片戰爭 前沿 AI
分享

相關報導

Qualcomm 傳百億美元洽購 Tenstorrent:RISC-V 押注,劍指英偉達資料中心霸權

Qualcomm 據報正在與 RISC-V AI 晶片新創 Tenstorrent 進行進階收購談判,出價 80 至 100 億美元,是該公司去年估值的三倍。Tenstorrent 由傳奇晶片架構師 Jim Keller 領軍,其 Blackhole AI 晶片採用開源 RISC-V 架構。若交易完成,Qualcomm 將取得資料中心 AI 的可信戰略、深厚的 RISC-V 技術根基,以及當世最受尊崇的晶片設計師。

1 分鐘閱讀

美國政府下令封禁 Fable 5:Anthropic 被迫向全球所有外國公民停服,同時公開反駁

6 月 12 日,美國政府援引國家安全權力,發出緊急出口管制指令,要求 Anthropic 立即停止向全球所有外國公民提供 Claude Fable 5 與 Mythos 5 的存取權。Anthropic 為確保合規,被迫對所有用戶全面下線這兩款模型,同時公開表示不認同政府的決定,並警告此舉可能對整個 AI 產業造成危險先例。

1 分鐘閱讀