DeepSeek V4：跑在華為晶片上的兆參數模型，正在改寫出口管制的邏輯

DeepSeek V4——一款專為全程運行於華為昇騰 950PR 晶片而設計的兆參數多模態模型——即將於本月公開發布，證明中國已在本土半導體硬體上實現前沿 AI 能力。以每百萬 token 0.5 美元的定價與估計僅 520 萬美元的訓練成本，它直接挑戰了「美國出口管制能約束中國 AI 發展」的基本前提。

2026年4月6日 1 分鐘閱讀

顛覆假設的模型

2022 年起，美國開始限制先進 AI 晶片對中國的出口，並在 2023、2024 年乃至 2026 年間持續收緊管制。這套政策背後的戰略邏輯清晰明確：前沿 AI 開發需要前沿硬體；如果中國無法取得前沿硬體（英偉達的 H100、H200、B200 系列），就無法發展前沿 AI。

DeepSeek V4，是對這個邏輯迄今最直接的實證考驗。

根據路透社 4 月 4 日確認的報導，DeepSeek V4 運行在華為昇騰 950PR 晶片上——成為首個公開宣布、在兆參數規模上完全構建於中國本土半導體基礎設施的模型。完整版本預計將在 4 月下半月公開發布。

這一消息的戰略意涵遠超 AI 本身。如果中國能在本土晶片上構建前沿 AI，出口管制作為技術圍堵工具的有效性就失去了很大一部分意義。這對美國半導體政策、英偉達的長期中國營收前景，以及誰掌控 AI 發展堆疊的地緣政治競賽，都將帶來深遠影響。

技術規格

DeepSeek V4 採用混合專家（MoE）架構，總參數量達 1 兆。與前代 V3 類似，V4 使用稀疏啟動：每次推理僅激活約 370 億個參數。這一設計在保持龐大總參數量的同時，將延遲與運算成本控制在可接受範圍內——「模型知道什麼」（總參數）與「每步生成時存取什麼」（激活參數）之間的分離，正是 MoE 效率創新的核心。

主要規格：

總參數量：1 兆
每次推理激活參數：約 370 億
上下文視窗：100 萬 token
支援模態：文字、圖像、程式碼原生多模態輸入
定價：API 上線約每百萬輸入 token 0.5 美元

100 萬 token 的上下文視窗尤為顯著——可以在單一提示詞中輸入整個程式庫、長篇法規文件或數小時的對話記錄，與 Google Gemini 3.1 Flash 相當，超越發布時大多數競爭模型。

定價方面的數字在開發者社群引發了最多討論：GPT-4o 每百萬輸入 token 收費 2.5 美元；Claude Opus 4.6 約為 15 美元；DeepSeek V4 以 0.5 美元，比 GPT-4o 便宜 80%，比 Opus 便宜 97%。如果基準測試表現支撐切換，AI 驅動產品的經濟學將大幅改變。

跑在華為上：這究竟意味著什麼

華為昇騰 950PR 是該公司最新的 AI 加速晶片，採用中芯國際 7nm 製程生產。它在技術規格上並不等同於英偉達 H100 或 B200——英偉達晶片目前仍在記憶體頻寬、標準精度浮點運算吞吐量和軟體生態（CUDA 的生態系統比華為的 CANN 框架領先十年）上具有明顯優勢。這個差距是真實存在的。

DeepSeek 展示的，是這個差距可以被工程化繞過。訓練兆參數模型不只需要硬體性能，還需要算法效率——優化的注意力機制、積極的量化策略、針對特定晶片架構的自定義核心實作，以及依據硬體記憶體拓撲調校的分散式訓練框架。DeepSeek 研究團隊在效率工程上一貫展現出卓越的能力；V3 在受限硬體上約 560 萬美元的訓練成本，在方法論公開之前，已被大多數西方分析師認定為不可能完成的任務。

V4 估計訓練成本為 520 萬美元——儘管總參數量更大，但得益於 MoE 效率提升和對昇騰的優化利用，成本反而低於 V3。早期 API 用戶報告的推理速度提升（比 V3 快 30%）提供了部分驗證，表明在華為晶片上的生產環境性能確實可行。

出口管制的困境

美國商務部工業安全局（BIS）自 2022 年起持續收緊對中國的先進 AI 晶片出口限制。2026 年 1 月的修訂將英偉達 H200 和 AMD MI325X 同等晶片對中國出口的審查政策，從「推定拒絕」改為「逐案審查」——雖略有鬆動，但在前沿仍維持了實質管制。

這些限制創造了一個可預期的動態：中國 AI 實驗室發展出了以更少資源完成更多工作的卓越能力。DeepSeek V3 在 2025 年底發布時，已經證明可以用一小部分運算成本，訓練出具有 GPT-4 競爭力的模型。V4 將這個示範延伸至兆參數規模，並跑在完全國產的硬體上。

這引發的政策辯論真正困難。更嚴格的出口管制本應減緩中國 AI 的發展，但結果似乎反而加速了高效訓練算法和本土硬體利用技術的發展——這些能力可能最終比取用英偉達晶片更加持久。有一個合理的論點認為：出口管制通過製造工程挑戰，無意間促成了 DeepSeek 的效率創新。

國會的強硬派對此持不同意見：即使中國在軟體效率上正在追趕，硬體性能差距依然提供了實質優勢，放鬆管制只會加速中國的進展。隨著 V4 基準測試結果陸續公開，這場辯論將持續升溫。

開源與全球開發者生態

DeepSeek 的前代發布——V3 和 R1 系列——均以允許商業使用的寬鬆授權發布。V4 預計延續這一做法，雖然正式授權條款在完整發布前尚未確認。

如果 V4 以開放權重形式發布，對全球開發者生態的影響將是實質性的：一款兆參數多模態模型，以每百萬 token 0.5 美元的 API 定價（或對擁有華為硬體的機構本地部署），代表著以商品化定價取得前沿能力的可能。構建 AI 驅動產品的新創公司，將能以大幅更低的成本，存取一個（如果基準測試成立的話）與頂尖美國閉源模型競爭的模型。

開發者對已上線的 V4-Lite（較小的變體）的接受度正面，早期用戶特別指出，與 V3 相比，V4 在 100 萬 token 視窗內的長距離上下文回溯顯著改善，多語言任務表現更佳。完整基準測試將在正式發布後跟進，但早期訊號顯示，DeepSeek 的效率提升並未以降低品質為代價。

接下來的走向

DeepSeek V4 四月下半月的完整發布，將帶來不可避免的基準競賽：與 GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro 以及剛發布的 Gemma 4 31B 的比較測試。V4 在 GPQA Diamond、MMLU、HumanEval 和長上下文檢索基準上的表現，將決定它是真正的前沿競爭者，還是在特定領域存在能力缺口的出色工程示範。

但無論基準測試結果如何，DeepSeek V4 已經完成了它最重要的目標：證明在中國本土半導體硬體上構建兆參數前沿 AI 是可行的。對美國政策制定者而言，問題已不再是「中國能否在出口管制下構建前沿 AI」——它可以。問題是接下來怎麼辦。

資料來源

DeepSeek 華為中國AI 開源出口管制硬體大語言模型