DeepSeek V4 即將發布:1 兆參數、Apache 2.0、訓練成本僅 520 萬美元
DeepSeek V4 據報數週內即將上線,模型已重寫以支援華為昇騰晶片而非 Nvidia 硬體。外洩的基準測試宣稱 SWE-bench Verified 達 80% 以上、訓練成本僅 520 萬美元——若屬實,將成為史上能力最強的開放權重模型,同時標誌著中國 AI 技術棧主動脫離美國管控硬體的里程碑。
根據 The Information 在 4 月 3 日的報導,DeepSeek V4 將在數週內發布。相較於 2025 年初震驚西方 AI 實驗室的 V3,這次的演進不只在能力面——更在硬體依賴上。發布時間的延遲,源自一次刻意的推理堆疊重寫:改為原生支援華為昇騰晶片與寒武紀加速器,而非 Nvidia 硬體。這個改變清晰地傳遞了一個戰略信號:刻意脫離對美國管控矽片的依賴。
目前流傳的外洩基準測試數據——截至撰文時尚未經過獨立驗證——描述的是一個將成為史上能力最強開放權重模型的系統。若數據屬實,DeepSeek V4 將大幅縮小中國開源 AI 與西方封閉前沿模型之間僅存的差距,同時任何人都可以免費下載、微調和部署,不受任何限制。
架構:兆參數,高效激活
DeepSeek V4 採用混合專家(Mixture-of-Experts,MoE)架構,總參數量約 1 兆,但每次前向推理僅激活約 370 億個參數。這種 MoE 設計與 DeepSeek V3 高效率的核心相同:大多數參數是「專家」,僅在相關 token 上下文中激活,使得即便總參數量極為龐大,推理成本依然可控。
100 萬 token 的脈絡窗口是顯著的擴充,讓模型能夠在書本長度的文件、大型程式碼庫和長篇對話歷史中進行推理,無需截斷。跨文字、圖片與影片的原生多模態能力,讓其在功能上與 GPT-5 和 Claude 目前的能力齊平。
520 萬美元的訓練成本估算,將是最受質疑的數字。DeepSeek V3 宣稱訓練成本約 550 萬美元,這個數字曾遭西方研究者質疑,認為其計算方式未納入預訓練的攤提、硬體折舊和基礎設施成本。若 V4 的 520 萬美元以相同口徑計算,它要麼代表了訓練效率上的真正突破,要麼反映了一種掩蓋完整成本結構的會計方式。
無論如何,這個成本數字對競爭動態至關重要。若 DeepSeek 真的能以個位數百萬美元訓練前沿級別的模型,OpenAI(估值 8,520 億美元、籌資 1,220 億美元)和 Anthropic(完成 300 億美元融資輪)的資本優勢就成了結構性的多餘——而下一代挑戰者實驗室的進入門檻也將大幅降低。
為華為晶片重寫:一個戰略信號
因重寫至華為昇騰硬體而造成的延遲,是這則新聞中戰略意義最重大的元素。
DeepSeek V3 主要在 Nvidia A100 GPU 上訓練——這款硬體自 2022 年起已受到美國出口管制,但在 V3 研發期間,中國企業仍能透過各種管道取得。V3 發布後,美國進一步收緊出口管制,切斷了對算力門檻以上所有 Nvidia 晶片的剩餘存取。
V4 針對華為昇騰的重寫,是對這次收緊的直接回應。透過圍繞華為昇騰 910C 和 910D 加速器重建推理堆疊(據報訓練管道也大部分進行了遷移),DeepSeek 確保了 V4 及未來模型的開發和部署不再依賴 Nvidia。
這個意義超越了 DeepSeek 本身。若 V4 能證明前沿級別的模型開發在華為矽片上規模化可行,就等於驗證了華為昇騰平台作為 Nvidia AI 訓練替代方案的真實能力——這將對整個美國出口管制框架產生深遠影響。現行管制的前提假設是:切斷 Nvidia 存取將有效減緩中國 AI 發展;若 V4 在華為晶片上成功,這個假設將受到直接挑戰。
寒武紀相容性是同方向的次要信號:中國正在同時投資多個國內 AI 晶片平台,對國內生態系統的單一供應商風險進行分散。
外洩基準測試數據
以下是目前流傳的 V4 正式發布前外洩基準測試(來源:NxCode 整理及 Dataconomy 4 月報導):
- HumanEval:90%——與目前程式碼生成最佳水準持平或更優
- SWE-bench Verified:80% 以上——若屬實,將超越 Kimi-K2.5(76.8%)、GLM5(77.8%)、阿里巴巴 Qwen 3.6-Plus(78.8%),並以約 1 個百分點的差距逼近目前報告領先的 Claude Opus 4.5(80.9%)
- GPQA Diamond(研究所級別科學推理):85% 以上——與 GPT-5.x 競爭
- MMLU:95% 以上——接近此基準上限
這些數字尚未經 ML 社群驗證。DeepSeek 過去的基準測試呈現也曾受到方法論審視。基準膨脹——選擇有利的評估項目、挑選最佳的少樣本提示設定,或使用含有訓練資料汙染的評估集——是所有 AI 實驗室的普遍問題,並不限於中國開發者。
SWE-bench Verified 的分數特別值得關注,因為它較難造假:該測試要求在實際 GitHub 生產程式碼庫中真正解決問題,並透過自動化測試驗證正確性。若真的達到 80% 以上,將是一項有實質意義的成就。
開放權重,Apache 2.0
如同 DeepSeek V3,V4 預計以 Apache 2.0 授權完整釋出所有模型權重——與 Google 為 Gemma 4 選擇的授權相同。這意味著任何人都可以在沒有授權限制或版稅義務的情況下,下載、微調並商業部署這個完整模型。
前沿級別能力加上 Apache 2.0 授權的組合,對 OpenAI 和 Anthropic 的封閉模型 API 業務構成具體的競爭威脅。目前為程式碼生成、推理或多模態任務付費使用 GPT-5 或 Claude API 的企業,可能會發現在本地部署的 DeepSeek V4——在自有資料上微調、在自有基礎設施上運行——能以更低的邊際成本提供相當的結果。
企業採用動態在很大程度上取決於推理效率。從 1 兆參數 MoE 模型中運行 370 億活躍參數,仍需要相當的硬體;API 定價與自託管部署之間的成本交叉點,因應用場景和使用量而差異顯著。
發布之後
若基準測試屬實,且 DeepSeek 按報導在未來幾週內以 Apache 2.0 發布 V4,西方 AI 實驗室的反應將很有啟示性。2025 年初的 V3 發布觸發了「AI 模型」風險資產的顯著重新定價,並加速了 Meta、Google 和 Mistral 的多項開放權重模型發布。
V4 若如聲稱般表現,衝擊將更大——不是因為基準測試數字將是前所未見的(Claude Opus 4.5 在 SWE-bench 已接近 81%),而是因為它將證明:在非 Nvidia 硬體上的開放權重模型,已達到與全球最佳封閉模型近乎持平的水準。開放、低成本、硬體獨立、接近前沿——這個組合,正是西方 AI 實驗室一直在努力避免出現的局面。
未來幾週將決定 DeepSeek V4 是否就是那個模型。