跳至主要內容
FAQ

華為 Ascend 950PR 開始量產:中國最強 AI 推理晶片獲字節跳動 56 億美元訂單,重塑全球晶片賽局

華為已開始量產 Ascend 950PR,這款 AI 推理晶片在 FP4 精度下性能達英偉達 H20 的 2.8 倍,搭配 Atlas 350 加速卡,112GB 自研 HiBL 記憶體提供 1.4TB/s 頻寬。字節跳動承諾 2026 年採購 75 萬顆、總額高達 56 億美元,阿里巴巴與騰訊跟進,標誌著中國國產算力對英偉達壟斷地位的最有力挑戰。

1 分鐘閱讀

三年來,中國 AI 雄心背後始終縈繞著一個核心問題:硬體。美國出口管制自 2022 年起持續收緊,限制了中國企業取得最先進 Nvidia GPU 的途徑——而這些晶片,正是支撐前沿模型訓練和數億用戶 AI 應用推理基礎設施的關鍵。字節跳動、阿里巴巴、騰訊、百度和華為雲,被迫囤積舊款晶片、支付灰色市場溢價,或設法讓工作流程適應那些從未為現代 AI 設計的硬體。

這個困境,正在被正面突破。華為已開始量產 Ascend 950PR——一款 AI 推理晶片,代表著出口管制實施以來,中國對英偉達在中國市場主導地位最有力的本土挑戰。搭配 3 月 20 日在「華為中國合作夥伴大會」上亮相的 Atlas 350 加速卡,950PR 所呈現的性能規格,首次讓國產中國芯片在真正意義上與驅動全球 AI 革命的硬體競爭。

性能規格:FP4 精度下 H20 的 2.8 倍

性能主張直接而具體。在 FP4 精度下——這是大規模 AI 推理日益偏好的數值格式,因為它能降低記憶體消耗與運算成本——Ascend 950PR 的性能達英偉達 H20 的 2.8 倍。H20 是美國出口管制下目前允許在中國銷售的英偉達最先進晶片,本身已是針對合規門檻刻意降規的 H100 版本。

具體數字:Atlas 350 加速卡在 FP8 精度下達 1 PFLOPS,FP4 精度下達 2 PFLOPS;峰值互聯頻寬達 2 TB/s,足以支援大規模模型跨卡訓練與推理所需的高速通訊。

記憶體是重要的差異化因素。950PR 整合了 112GB 華為自研 HiBL 1.0 高頻寬記憶體,比英偉達 H20 的 96GB HBM3 容量高出 1.16 倍;頻寬達 1.4 TB/s。記憶體容量是服務大型語言模型的實際瓶頸:更大的記憶體意味著更大的模型可以在更少的晶片上執行,降低基礎設施成本與推理延遲。

CUDA 橋接:軟體才是真正的護城河

硬體規格只是故事的一半。英偉達在 AI 硬體的主導地位,始終同樣建立在軟體之上——具體而言,是 CUDA:這個並行運算平台已成為幾乎所有 AI 研究與生產工作負載的預設基礎。過去 15 年,AI 研究社群在 CUDA 之上構建了無數框架、函式庫、工具鏈和工程直覺。切換到新的硬體架構,歷來意味著重寫程式碼、重新培訓工程師,以及在遷移期間接受性能不確定性。

華為上一代昇騰晶片(尤其是 910B 和 910C)的 CUDA 相容性有限,是主要採用障礙。即使在出口管制迫使別無選擇的情況下,許多企業仍望而卻步。

Ascend 950PR 大幅縮小了這一差距。多方消息來源顯示,該晶片提供了增強的 CUDA 相容軟體層,允許開發者以大幅減少的重寫工作完成模型遷移。華為 CANN 軟體棧的專有工具現在能自動處理大部分架構轉譯工作。這並非完美的 CUDA 相容——沒有任何非英偉達晶片達到這一點——但它已明顯優於前幾代產品,且似乎足以使遷移在經濟和技術上都可行。

字節跳動的 56 億美元押注

950PR 商業可行性最具體的驗證,是採購規模。字節跳動——抖音和 TikTok 背後的公司,運營著全球最大規模的 AI 推理工作負載之一——承諾了總計 56 億美元的 950PR 採購訂單,代表 2026 年計畫交付的約 75 萬顆晶片。路透社在 3 月下旬率先報導了字節跳動和阿里巴巴的採購意向。

以每張加速卡約 7,500 美元的均價計算,75 萬張代表約 56 億美元——這不僅是一個採購決策,更是一份戰略聲明:字節跳動等於在宣告,950PR 的 CUDA 相容性足夠用,性能足以滿足其推理工作負載,減少對英偉達依賴的戰略利益超過了任何殘餘的性能差距。

阿里巴巴和騰訊也已下單,確切數量尚未公開確認。綜合各方估計,2026 年全年訂單量可能達到或超過 100 萬張——這將使 Ascend 950PR 成為中國市場歷史上最大規模的單代 AI 晶片出貨之一。

DeepSeek V4:最終的概念驗證

字節跳動、阿里巴巴和騰訊的商業訂單是重要驗證,但 950PR 最關鍵的背書將來自軟體層面。DeepSeek 的 V4 模型——據報是兆級參數系統,預計在 4 月下旬推出——被設計為完全運行在 Ascend 950PR 晶片上。

這是一個刻意的架構選擇。DeepSeek 給予華為和寒武紀 V4 開發的早期訪問權,而刻意將這個窗口對英偉達關閉。工程團隊重寫了訓練與推理管道的核心模組,以在昇騰架構上原生運行。若 V4 在完全依賴國產晶片的條件下,性能能達到甚至超越 Anthropic、OpenAI、Google 的最新模型——那些在英偉達最先進算力上訓練的模型——那將是國產中國芯片能支撐全球最高水準前沿 AI 的第一個確鑿證明。

對台灣的地緣影響:不可迴避的意義

對台灣而言,這個故事有著多重層次的意義。台積電是英偉達 AI 晶片最先進製程的主要製造商;華為的 Ascend 晶片則主要由中芯國際(SMIC)和其他中國代工廠生產,製程節點雖落後,但正持續縮小差距。

如果 950PR 驗證了「不依賴台積電先進製程也能製造出足夠競爭力的 AI 晶片」,那麼整個全球 AI 算力供應鏈的地緣政治圖景都將隨之改變。這不意味台積電的優勢立即消失——但它確實意味著:「誰控制了最先進的晶圓代工,誰就控制了 AI 算力」這個等式,可能比許多人預期的更快被重新書寫。

中國有沒有可以媲美英偉達的 AI 晶片,已不再是問題。問題是:它需要多長時間,才能成為中國境內的預設選擇。

華為 Ascend 950PR AI 晶片 中國半導體 字節跳動 英偉達 出口管制
分享

相關報導