DeepSeek V4 即將發布：1 兆參數、Apache 2.0、訓練成本僅 520 萬美元

DeepSeek V4 據報數週內即將上線，模型已重寫以支援華為昇騰晶片而非 Nvidia 硬體。外洩的基準測試宣稱 SWE-bench Verified 達 80% 以上、訓練成本僅 520 萬美元——若屬實，將成為史上能力最強的開放權重模型，同時標誌著中國 AI 技術棧主動脫離美國管控硬體的里程碑。

2026年4月5日 1 分鐘閱讀

根據 The Information 在 4 月 3 日的報導，DeepSeek V4 將在數週內發布。相較於 2025 年初震驚西方 AI 實驗室的 V3，這次的演進不只在能力面——更在硬體依賴上。發布時間的延遲，源自一次刻意的推理堆疊重寫：改為原生支援華為昇騰晶片與寒武紀加速器，而非 Nvidia 硬體。這個改變清晰地傳遞了一個戰略信號：刻意脫離對美國管控矽片的依賴。

目前流傳的外洩基準測試數據——截至撰文時尚未經過獨立驗證——描述的是一個將成為史上能力最強開放權重模型的系統。若數據屬實，DeepSeek V4 將大幅縮小中國開源 AI 與西方封閉前沿模型之間僅存的差距，同時任何人都可以免費下載、微調和部署，不受任何限制。

架構：兆參數，高效激活

DeepSeek V4 採用混合專家（Mixture-of-Experts，MoE）架構，總參數量約 1 兆，但每次前向推理僅激活約 370 億個參數。這種 MoE 設計與 DeepSeek V3 高效率的核心相同：大多數參數是「專家」，僅在相關 token 上下文中激活，使得即便總參數量極為龐大，推理成本依然可控。

100 萬 token 的脈絡窗口是顯著的擴充，讓模型能夠在書本長度的文件、大型程式碼庫和長篇對話歷史中進行推理，無需截斷。跨文字、圖片與影片的原生多模態能力，讓其在功能上與 GPT-5 和 Claude 目前的能力齊平。

520 萬美元的訓練成本估算，將是最受質疑的數字。DeepSeek V3 宣稱訓練成本約 550 萬美元，這個數字曾遭西方研究者質疑，認為其計算方式未納入預訓練的攤提、硬體折舊和基礎設施成本。若 V4 的 520 萬美元以相同口徑計算，它要麼代表了訓練效率上的真正突破，要麼反映了一種掩蓋完整成本結構的會計方式。

無論如何，這個成本數字對競爭動態至關重要。若 DeepSeek 真的能以個位數百萬美元訓練前沿級別的模型，OpenAI（估值 8,520 億美元、籌資 1,220 億美元）和 Anthropic（完成 300 億美元融資輪）的資本優勢就成了結構性的多餘——而下一代挑戰者實驗室的進入門檻也將大幅降低。

為華為晶片重寫：一個戰略信號

因重寫至華為昇騰硬體而造成的延遲，是這則新聞中戰略意義最重大的元素。

DeepSeek V3 主要在 Nvidia A100 GPU 上訓練——這款硬體自 2022 年起已受到美國出口管制，但在 V3 研發期間，中國企業仍能透過各種管道取得。V3 發布後，美國進一步收緊出口管制，切斷了對算力門檻以上所有 Nvidia 晶片的剩餘存取。

V4 針對華為昇騰的重寫，是對這次收緊的直接回應。透過圍繞華為昇騰 910C 和 910D 加速器重建推理堆疊（據報訓練管道也大部分進行了遷移），DeepSeek 確保了 V4 及未來模型的開發和部署不再依賴 Nvidia。

這個意義超越了 DeepSeek 本身。若 V4 能證明前沿級別的模型開發在華為矽片上規模化可行，就等於驗證了華為昇騰平台作為 Nvidia AI 訓練替代方案的真實能力——這將對整個美國出口管制框架產生深遠影響。現行管制的前提假設是：切斷 Nvidia 存取將有效減緩中國 AI 發展；若 V4 在華為晶片上成功，這個假設將受到直接挑戰。

寒武紀相容性是同方向的次要信號：中國正在同時投資多個國內 AI 晶片平台，對國內生態系統的單一供應商風險進行分散。

外洩基準測試數據

以下是目前流傳的 V4 正式發布前外洩基準測試（來源：NxCode 整理及 Dataconomy 4 月報導）：

HumanEval：90%——與目前程式碼生成最佳水準持平或更優
SWE-bench Verified：80% 以上——若屬實，將超越 Kimi-K2.5（76.8%）、GLM5（77.8%）、阿里巴巴 Qwen 3.6-Plus（78.8%），並以約 1 個百分點的差距逼近目前報告領先的 Claude Opus 4.5（80.9%）
GPQA Diamond（研究所級別科學推理）：85% 以上——與 GPT-5.x 競爭
MMLU：95% 以上——接近此基準上限

這些數字尚未經 ML 社群驗證。DeepSeek 過去的基準測試呈現也曾受到方法論審視。基準膨脹——選擇有利的評估項目、挑選最佳的少樣本提示設定，或使用含有訓練資料汙染的評估集——是所有 AI 實驗室的普遍問題，並不限於中國開發者。

SWE-bench Verified 的分數特別值得關注，因為它較難造假：該測試要求在實際 GitHub 生產程式碼庫中真正解決問題，並透過自動化測試驗證正確性。若真的達到 80% 以上，將是一項有實質意義的成就。

開放權重，Apache 2.0

如同 DeepSeek V3，V4 預計以 Apache 2.0 授權完整釋出所有模型權重——與 Google 為 Gemma 4 選擇的授權相同。這意味著任何人都可以在沒有授權限制或版稅義務的情況下，下載、微調並商業部署這個完整模型。

前沿級別能力加上 Apache 2.0 授權的組合，對 OpenAI 和 Anthropic 的封閉模型 API 業務構成具體的競爭威脅。目前為程式碼生成、推理或多模態任務付費使用 GPT-5 或 Claude API 的企業，可能會發現在本地部署的 DeepSeek V4——在自有資料上微調、在自有基礎設施上運行——能以更低的邊際成本提供相當的結果。

企業採用動態在很大程度上取決於推理效率。從 1 兆參數 MoE 模型中運行 370 億活躍參數，仍需要相當的硬體；API 定價與自託管部署之間的成本交叉點，因應用場景和使用量而差異顯著。

發布之後

若基準測試屬實，且 DeepSeek 按報導在未來幾週內以 Apache 2.0 發布 V4，西方 AI 實驗室的反應將很有啟示性。2025 年初的 V3 發布觸發了「AI 模型」風險資產的顯著重新定價，並加速了 Meta、Google 和 Mistral 的多項開放權重模型發布。

V4 若如聲稱般表現，衝擊將更大——不是因為基準測試數字將是前所未見的（Claude Opus 4.5 在 SWE-bench 已接近 81%），而是因為它將證明：在非 Nvidia 硬體上的開放權重模型，已達到與全球最佳封閉模型近乎持平的水準。開放、低成本、硬體獨立、接近前沿——這個組合，正是西方 AI 實驗室一直在努力避免出現的局面。

未來幾週將決定 DeepSeek V4 是否就是那個模型。

資料來源

deepseek 開源中國AI 華為 llm apache-2.0