DeepSeek V4:跑在華為晶片上的兆參數模型,正在改寫出口管制的邏輯
DeepSeek V4——一款專為全程運行於華為昇騰 950PR 晶片而設計的兆參數多模態模型——即將於本月公開發布,證明中國已在本土半導體硬體上實現前沿 AI 能力。以每百萬 token 0.5 美元的定價與估計僅 520 萬美元的訓練成本,它直接挑戰了「美國出口管制能約束中國 AI 發展」的基本前提。
顛覆假設的模型
2022 年起,美國開始限制先進 AI 晶片對中國的出口,並在 2023、2024 年乃至 2026 年間持續收緊管制。這套政策背後的戰略邏輯清晰明確:前沿 AI 開發需要前沿硬體;如果中國無法取得前沿硬體(英偉達的 H100、H200、B200 系列),就無法發展前沿 AI。
DeepSeek V4,是對這個邏輯迄今最直接的實證考驗。
根據路透社 4 月 4 日確認的報導,DeepSeek V4 運行在華為昇騰 950PR 晶片上——成為首個公開宣布、在兆參數規模上完全構建於中國本土半導體基礎設施的模型。完整版本預計將在 4 月下半月公開發布。
這一消息的戰略意涵遠超 AI 本身。如果中國能在本土晶片上構建前沿 AI,出口管制作為技術圍堵工具的有效性就失去了很大一部分意義。這對美國半導體政策、英偉達的長期中國營收前景,以及誰掌控 AI 發展堆疊的地緣政治競賽,都將帶來深遠影響。
技術規格
DeepSeek V4 採用混合專家(MoE)架構,總參數量達 1 兆。與前代 V3 類似,V4 使用稀疏啟動:每次推理僅激活約 370 億個參數。這一設計在保持龐大總參數量的同時,將延遲與運算成本控制在可接受範圍內——「模型知道什麼」(總參數)與「每步生成時存取什麼」(激活參數)之間的分離,正是 MoE 效率創新的核心。
主要規格:
- 總參數量:1 兆
- 每次推理激活參數:約 370 億
- 上下文視窗:100 萬 token
- 支援模態:文字、圖像、程式碼原生多模態輸入
- 定價:API 上線約每百萬輸入 token 0.5 美元
100 萬 token 的上下文視窗尤為顯著——可以在單一提示詞中輸入整個程式庫、長篇法規文件或數小時的對話記錄,與 Google Gemini 3.1 Flash 相當,超越發布時大多數競爭模型。
定價方面的數字在開發者社群引發了最多討論:GPT-4o 每百萬輸入 token 收費 2.5 美元;Claude Opus 4.6 約為 15 美元;DeepSeek V4 以 0.5 美元,比 GPT-4o 便宜 80%,比 Opus 便宜 97%。如果基準測試表現支撐切換,AI 驅動產品的經濟學將大幅改變。
跑在華為上:這究竟意味著什麼
華為昇騰 950PR 是該公司最新的 AI 加速晶片,採用中芯國際 7nm 製程生產。它在技術規格上並不等同於英偉達 H100 或 B200——英偉達晶片目前仍在記憶體頻寬、標準精度浮點運算吞吐量和軟體生態(CUDA 的生態系統比華為的 CANN 框架領先十年)上具有明顯優勢。這個差距是真實存在的。
DeepSeek 展示的,是這個差距可以被工程化繞過。訓練兆參數模型不只需要硬體性能,還需要算法效率——優化的注意力機制、積極的量化策略、針對特定晶片架構的自定義核心實作,以及依據硬體記憶體拓撲調校的分散式訓練框架。DeepSeek 研究團隊在效率工程上一貫展現出卓越的能力;V3 在受限硬體上約 560 萬美元的訓練成本,在方法論公開之前,已被大多數西方分析師認定為不可能完成的任務。
V4 估計訓練成本為 520 萬美元——儘管總參數量更大,但得益於 MoE 效率提升和對昇騰的優化利用,成本反而低於 V3。早期 API 用戶報告的推理速度提升(比 V3 快 30%)提供了部分驗證,表明在華為晶片上的生產環境性能確實可行。
出口管制的困境
美國商務部工業安全局(BIS)自 2022 年起持續收緊對中國的先進 AI 晶片出口限制。2026 年 1 月的修訂將英偉達 H200 和 AMD MI325X 同等晶片對中國出口的審查政策,從「推定拒絕」改為「逐案審查」——雖略有鬆動,但在前沿仍維持了實質管制。
這些限制創造了一個可預期的動態:中國 AI 實驗室發展出了以更少資源完成更多工作的卓越能力。DeepSeek V3 在 2025 年底發布時,已經證明可以用一小部分運算成本,訓練出具有 GPT-4 競爭力的模型。V4 將這個示範延伸至兆參數規模,並跑在完全國產的硬體上。
這引發的政策辯論真正困難。更嚴格的出口管制本應減緩中國 AI 的發展,但結果似乎反而加速了高效訓練算法和本土硬體利用技術的發展——這些能力可能最終比取用英偉達晶片更加持久。有一個合理的論點認為:出口管制通過製造工程挑戰,無意間促成了 DeepSeek 的效率創新。
國會的強硬派對此持不同意見:即使中國在軟體效率上正在追趕,硬體性能差距依然提供了實質優勢,放鬆管制只會加速中國的進展。隨著 V4 基準測試結果陸續公開,這場辯論將持續升溫。
開源與全球開發者生態
DeepSeek 的前代發布——V3 和 R1 系列——均以允許商業使用的寬鬆授權發布。V4 預計延續這一做法,雖然正式授權條款在完整發布前尚未確認。
如果 V4 以開放權重形式發布,對全球開發者生態的影響將是實質性的:一款兆參數多模態模型,以每百萬 token 0.5 美元的 API 定價(或對擁有華為硬體的機構本地部署),代表著以商品化定價取得前沿能力的可能。構建 AI 驅動產品的新創公司,將能以大幅更低的成本,存取一個(如果基準測試成立的話)與頂尖美國閉源模型競爭的模型。
開發者對已上線的 V4-Lite(較小的變體)的接受度正面,早期用戶特別指出,與 V3 相比,V4 在 100 萬 token 視窗內的長距離上下文回溯顯著改善,多語言任務表現更佳。完整基準測試將在正式發布後跟進,但早期訊號顯示,DeepSeek 的效率提升並未以降低品質為代價。
接下來的走向
DeepSeek V4 四月下半月的完整發布,將帶來不可避免的基準競賽:與 GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro 以及剛發布的 Gemma 4 31B 的比較測試。V4 在 GPQA Diamond、MMLU、HumanEval 和長上下文檢索基準上的表現,將決定它是真正的前沿競爭者,還是在特定領域存在能力缺口的出色工程示範。
但無論基準測試結果如何,DeepSeek V4 已經完成了它最重要的目標:證明在中國本土半導體硬體上構建兆參數前沿 AI 是可行的。對美國政策制定者而言,問題已不再是「中國能否在出口管制下構建前沿 AI」——它可以。問題是接下來怎麼辦。