硬體

華為 Ascend 950PR 開始量產：中國最強 AI 推理晶片獲字節跳動 56 億美元訂單，重塑全球晶片賽局

華為已開始量產 Ascend 950PR，這款 AI 推理晶片在 FP4 精度下性能達英偉達 H20 的 2.8 倍，搭配 Atlas 350 加速卡，112GB 自研 HiBL 記憶體提供 1.4TB/s 頻寬。字節跳動承諾 2026 年採購 75 萬顆、總額高達 56 億美元，阿里巴巴與騰訊跟進，標誌著中國國產算力對英偉達壟斷地位的最有力挑戰。

2026年4月19日 1 分鐘閱讀

三年來，中國 AI 雄心背後始終縈繞著一個核心問題：硬體。美國出口管制自 2022 年起持續收緊，限制了中國企業取得最先進 Nvidia GPU 的途徑——而這些晶片，正是支撐前沿模型訓練和數億用戶 AI 應用推理基礎設施的關鍵。字節跳動、阿里巴巴、騰訊、百度和華為雲，被迫囤積舊款晶片、支付灰色市場溢價，或設法讓工作流程適應那些從未為現代 AI 設計的硬體。

這個困境，正在被正面突破。華為已開始量產 Ascend 950PR——一款 AI 推理晶片，代表著出口管制實施以來，中國對英偉達在中國市場主導地位最有力的本土挑戰。搭配 3 月 20 日在「華為中國合作夥伴大會」上亮相的 Atlas 350 加速卡，950PR 所呈現的性能規格，首次讓國產中國芯片在真正意義上與驅動全球 AI 革命的硬體競爭。

性能規格：FP4 精度下 H20 的 2.8 倍

性能主張直接而具體。在 FP4 精度下——這是大規模 AI 推理日益偏好的數值格式，因為它能降低記憶體消耗與運算成本——Ascend 950PR 的性能達英偉達 H20 的 2.8 倍。H20 是美國出口管制下目前允許在中國銷售的英偉達最先進晶片，本身已是針對合規門檻刻意降規的 H100 版本。

具體數字：Atlas 350 加速卡在 FP8 精度下達 1 PFLOPS，FP4 精度下達 2 PFLOPS；峰值互聯頻寬達 2 TB/s，足以支援大規模模型跨卡訓練與推理所需的高速通訊。

記憶體是重要的差異化因素。950PR 整合了 112GB 華為自研 HiBL 1.0 高頻寬記憶體，比英偉達 H20 的 96GB HBM3 容量高出 1.16 倍；頻寬達 1.4 TB/s。記憶體容量是服務大型語言模型的實際瓶頸：更大的記憶體意味著更大的模型可以在更少的晶片上執行，降低基礎設施成本與推理延遲。

CUDA 橋接：軟體才是真正的護城河

硬體規格只是故事的一半。英偉達在 AI 硬體的主導地位，始終同樣建立在軟體之上——具體而言，是 CUDA：這個並行運算平台已成為幾乎所有 AI 研究與生產工作負載的預設基礎。過去 15 年，AI 研究社群在 CUDA 之上構建了無數框架、函式庫、工具鏈和工程直覺。切換到新的硬體架構，歷來意味著重寫程式碼、重新培訓工程師，以及在遷移期間接受性能不確定性。

華為上一代昇騰晶片（尤其是 910B 和 910C）的 CUDA 相容性有限，是主要採用障礙。即使在出口管制迫使別無選擇的情況下，許多企業仍望而卻步。

Ascend 950PR 大幅縮小了這一差距。多方消息來源顯示，該晶片提供了增強的 CUDA 相容軟體層，允許開發者以大幅減少的重寫工作完成模型遷移。華為 CANN 軟體棧的專有工具現在能自動處理大部分架構轉譯工作。這並非完美的 CUDA 相容——沒有任何非英偉達晶片達到這一點——但它已明顯優於前幾代產品，且似乎足以使遷移在經濟和技術上都可行。

字節跳動的 56 億美元押注

950PR 商業可行性最具體的驗證，是採購規模。字節跳動——抖音和 TikTok 背後的公司，運營著全球最大規模的 AI 推理工作負載之一——承諾了總計 56 億美元的 950PR 採購訂單，代表 2026 年計畫交付的約 75 萬顆晶片。路透社在 3 月下旬率先報導了字節跳動和阿里巴巴的採購意向。

以每張加速卡約 7,500 美元的均價計算，75 萬張代表約 56 億美元——這不僅是一個採購決策，更是一份戰略聲明：字節跳動等於在宣告，950PR 的 CUDA 相容性足夠用，性能足以滿足其推理工作負載，減少對英偉達依賴的戰略利益超過了任何殘餘的性能差距。

阿里巴巴和騰訊也已下單，確切數量尚未公開確認。綜合各方估計，2026 年全年訂單量可能達到或超過 100 萬張——這將使 Ascend 950PR 成為中國市場歷史上最大規模的單代 AI 晶片出貨之一。

DeepSeek V4：最終的概念驗證

字節跳動、阿里巴巴和騰訊的商業訂單是重要驗證，但 950PR 最關鍵的背書將來自軟體層面。DeepSeek 的 V4 模型——據報是兆級參數系統，預計在 4 月下旬推出——被設計為完全運行在 Ascend 950PR 晶片上。

這是一個刻意的架構選擇。DeepSeek 給予華為和寒武紀 V4 開發的早期訪問權，而刻意將這個窗口對英偉達關閉。工程團隊重寫了訓練與推理管道的核心模組，以在昇騰架構上原生運行。若 V4 在完全依賴國產晶片的條件下，性能能達到甚至超越 Anthropic、OpenAI、Google 的最新模型——那些在英偉達最先進算力上訓練的模型——那將是國產中國芯片能支撐全球最高水準前沿 AI 的第一個確鑿證明。

對台灣的地緣影響：不可迴避的意義

對台灣而言，這個故事有著多重層次的意義。台積電是英偉達 AI 晶片最先進製程的主要製造商；華為的 Ascend 晶片則主要由中芯國際（SMIC）和其他中國代工廠生產，製程節點雖落後，但正持續縮小差距。

如果 950PR 驗證了「不依賴台積電先進製程也能製造出足夠競爭力的 AI 晶片」，那麼整個全球 AI 算力供應鏈的地緣政治圖景都將隨之改變。這不意味台積電的優勢立即消失——但它確實意味著：「誰控制了最先進的晶圓代工，誰就控制了 AI 算力」這個等式，可能比許多人預期的更快被重新書寫。

中國有沒有可以媲美英偉達的 AI 晶片，已不再是問題。問題是：它需要多長時間，才能成為中國境內的預設選擇。

資料來源

華為 Ascend 950PR AI 晶片中國半導體字節跳動英偉達出口管制