中國 AI 模型佔全球 API 流量 61%,十八個月前不足 2%
由小米 MiMo、DeepSeek、Kimi、MiniMax 與智譜 GLM 系列領軍的中國開源 AI 模型,如今佔全球最大 AI 模型路由平台 OpenRouter 所有處理 token 的約 61%——相比 2025 年初不足 2% 的份額出現了 30 倍的飛躍。中國模型在同等任務上的定價較 GPT-5.5 便宜約 12 倍,且在程式碼與推理基準測試上已能比肩西方前沿模型,這場轉移代表全球 AI 基礎設施運營層控制權的結構性易主。
十八個月前,Meta 的 Llama 是開源 AI 領域無可爭議的王者。開發者只要想要無需逐 token 授權費用即可運行、修改或部署的強大模型,幾乎條件反射地就會選 Llama。中國模型只是邊緣存在——學術研討會上的有趣插曲,偶爾出現在基準測試論文中,但沒有人將它們視為生產環境中的真正競爭者。
今天,Llama 在 OpenRouter 的路由 token 量已跌至不足 1%。中國模型佔所有處理 token 的約 61%。按量計算最常用的前五款模型中,有四款來自中國。開源 AI 市場從美國主導到中國主導的重排,大約在五個季度內完成,而大多數業界觀察者在過程中低估了這場轉移的規模。
數字說話
OpenRouter 的處理流量是了解 AI 開發者在生產環境中實際使用模型方式的最清晰視窗之一,因為它匯聚了數千個應用程式的需求,呈現出單一平台儀表板所掩蓋的使用模式。
2026 年中期呈現的圖景觸目驚心。小米 MiMo 以約 21% 的路由 token 量位居所有模型之首,在程式碼相關流量中佔比約 22%。DeepSeek 持有約 17.6% 的路由量——這讓它超越每一家美國實驗室,包括 Anthropic(15.4%),並遠高於 Google 與 OpenAI(兩者合計在路由流量中僅佔個位數百分比)。
MiniMax M2.5 每月處理約 4.55 兆個 token。Moonshot AI 的 Kimi K2.6 緊隨其後,每月約 4.02 兆個 token,並在中國模型中領先程式碼基準測試。智譜 GLM-5.1 在 AIME 數學基準與 SWE-Bench Pro 上表現強勁。
加總後:中國源公司合計佔平台路由 token 量的約 61%,相比 2025 年初不足 2% 的份額,在十八個月內成長了約 30 倍。這種增速在近代科技市場歷史中鮮有先例。
究竟是什麼驅動了這場轉移
「中國模型便宜」這個表面解釋是正確的,但不完整。價格是直接原因;三股結構性力量創造了條件。
工作負載結構改變了。 程式碼相關任務從 2024 年佔 OpenRouter 流量的約 11%,增長至 2026 年中期的超過 50%。中國模型——特別是 DeepSeek、Kimi 與 MiniMax——在訓練時大量強調程式碼生成與除錯,它們在如今主導平台的程式碼工作負載中不成比例地佔優。如果組合仍維持在 11% 程式碼,市場份額圖景將截然不同。
開源權重成為了分發策略,而非研究姿態。 阿里雲的 Qwen 系列在 Hugging Face 上的下載量超過 10 億次,衍生出超過 20 萬個帶有 Qwen 標籤的模型。DeepSeek 公開權重;Kimi K2.6 完全開源。這種策略並非出於利他主義——開源權重的功能是為中國雲端平台(阿里雲、字節跳動的火山引擎)獲取客戶,正如免費服務降低付費產品採用門檻一樣。每位基於中國開源模型構建應用的開發者,都是以規模部署它的雲端基礎設施的潛在客戶。
價格差距是結構性的,不是促銷性的。 DeepSeek V4-Pro 在 6 月永久削價 75% 後,定價約為每百萬 token 輸入 0.44 美元、輸出 0.87 美元。GPT-5.5 在同等任務表現下,定價為輸入 2.5 美元、輸出 15 美元。這大約是 12 倍的輸入成本差距與 17 倍的輸出成本差距。這個差距不是設計用來購買市場份額的臨時促銷手段——它反映了中美兩國訓練與推理的相對成本結構差異。
2025 年 1 月的誤判
當 DeepSeek-R1 於 2025 年 1 月發布,並證明中國實驗室能以西方訓練成本的零頭達到同等推理品質時,美國金融市場的主流反應是對晶片需求崩潰的恐慌。如果 AI 模型能以更高效率訓練,推理是,對 Nvidia GPU 與資料中心基礎設施的巨額資本投入或許是不必要的。
這個預測以一種具有啟發意義的方式被證明是錯的。
更便宜的智慧並沒有減少總運算消耗——而是擴大了它。隨著每次有能力的 AI 互動成本下降,大規模部署 AI 的應用程式數量急劇增加。OpenRouter 的每週 token 量從 2025 年 4 月的約 5 兆 token,增長至 2026 年 4 月的超過 20 兆 token——增長 4 倍,很大程度上由中國開源模型帶來的廉價推理普及所驅動。Nvidia 的市值在 2026 年中期達到 5.14 兆美元,年增約 50%,因為在規模上運行推理的半導體需求更旺,而非更低。
混亂落在了模型供應商的市場份額上,而不是半導體需求上。受損的不是 GPU 製造商——而是那些此前對現在開源可以十至十二倍低價取得的能力收取高額費用的專有閉源模型實驗室。
美國優勢仍在何處
中國開源模型對運營層的接管,並不意味著美國實驗室在 AI 競賽中已告落敗。現實比這更細緻,而這些區別在政策與策略層面上至關重要。
前沿能力的上限仍由美國實驗室設定。GPT-5.6 Sol 目前在有限預覽中,代表著尚無中國開源模型在最高推理層面完全媲美的能力。Anthropic 的 Fable 5 系列儘管出口限制在某些市場制約了部署,但取得的基準測試結果建立了一個中國模型已接近但尚未完全超越的上限。針對前沿推理任務的高端企業收入,繼續主要流向 OpenAI 與 Anthropic。
但高端層只是總量的一個窄切片。Data Gravity 的分析精準捕捉了這一點:「前沿不再是流量所在地。高端推理是一個 15 個百分點的利基;廉價、開源、夠用的層才是市場——而它絕大多數是中國的。」
這對不同利益相關方意味著不同的事。對於風險資本回報而言,有利可圖的前沿仍屬美國公司。對於政府技術安全而言,運行全球大多數開發者工作負載的模型不是美國的。對於企業採購而言,成本敏感應用的預設開源選擇現在是中國源的。每個利益相關方都需要以不同方式處理這個複合現實。
基礎設施層才是真正的戰場
從當前市場結構的研究中浮現的最具策略重要性的洞見,可能是關於價值在哪裡累積,而不是誰訓練了最好的模型。
對 OpenRouter 轉移的分析研究一致指向同一個方向:利潤在模型上方與下方,而不在模型本身。純模型實驗室——無論是美國還是中國的——在能力商品層商品化的情況下面臨結構性壓力。技術棧中的持久價值在分發(字節跳動透過 TikTok 和抖音觸達消費者;阿里雲透過現有關係觸達企業)、在推理基礎設施(Nvidia 的 H100 和 H200 GPU 運行大多數中國模型推理),以及在記憶體。
高頻寬記憶體(HBM)——決定推理硬體處理 token 速度的實體元件——已成為分析師描述的「整個技術棧中槓桿最高的單一節點」。中國 2026 年的國內 HBM 產能上限約為 25 萬至 30 萬個高端封裝——這一限制制約了中國推理基礎設施在多大程度上能脫離 SK 海力士和美光等西方記憶體供應商獨立擴展。諷刺的是,針對先進記憶體晶片的美國出口管制,在維護競爭地位方面的效果可能比針對模型權重或訓練晶片的管制更為顯著,因為記憶體更難替代。
開發者現在應該怎麼做
對於 2026 年建構 AI 應用的開發者而言,這場市場轉移的實際含義是直接的:中國開源模型已進入生產就緒狀態,在主導實際工作負載的任務上往往能與西方前沿模型競爭,且運行成本大幅降低。成本結構優勢是真實且持久的,而非促銷性的。
相關的注意事項同樣真實。資料治理問題——誰儲存推理日誌、模型遙測資料流向何處、服務條款允許什麼——對於在中國資料法下運營的中國公司支持的模型而言更為複雜。處理敏感客戶資料或受監管資訊的企業應用,在大規模部署前需要對這些問題進行法律審查,無論技術性能優勢如何。
DeepSeek V4 和 Kimi K2.6 等模型的開源性質部分解決了這一顧慮:組織可以在自己的基礎設施上運行這些模型,而不是透過中國實驗室的 API,從而消除資料流向問題。但在規模上運行開源模型需要許多組織內部並不具備的基礎設施專業知識與運算投入,這也是為什麼 OpenRouter 上中國模型的相當一部分流量仍然流經中國實驗室自己的 API。
市場結構如今已成定局。中國模型主導全球 AI 的運營層。值得探討的問題不是「這是怎麼發生的」——那個故事已是歷史——而是這對 AI 能力發展、AI 基礎設施投資的地理分布,以及可能從這裡影響軌跡的政策槓桿意味著什麼。
有一個事實值得牢記:十八個月前,Llama 主導了開源世界。今天它不足 1%。這場轉移的速度,是關於 AI 市場結構能以多快改變的最重要數據點——這意味著對 2028 年誰控制技術棧下一層的預測,都應當保持適當的謙遜。