跳至主要內容
FAQ

騰訊 Hy3 Preview 登場:90 天打造 2,950 億參數 MoE 開源模型

騰訊混元團隊在新一輪領導層重組後推出首款旗艦模型 Hy3 Preview,採用 2,950 億參數的混合專家架構,從冷啟動到上線不足 90 天。模型在 SWE-bench Verified 達到 74.4%,支援 256K token 超長上下文,推理效率提升 40%,並已同步整合至微信、QQ 等十餘款騰訊產品。

1 分鐘閱讀

騰訊於 4 月 23 日正式發布 Hy3 Preview,這是公司在年初大規模調整混元團隊領導層後推出的首款重量級 AI 模型。這款混合專家(MoE)架構模型擁有 2,950 億個參數,每次推理激活 210 億個,從冷啟動訓練到公開發布僅歷時不足 90 天——這個速度本身就是一份宣言,說明中國科技業在 AI 模型開發效率上已走到何種位置。

此次發布在技術、競爭和象徵層面均具重要意義。對騰訊而言,這是公司 AI 架構重組之後從聲量轉向實際產出的第一份可信證明。對更廣泛的開源生態而言,它引入了一款有競爭力的中國大模型,打破了「只有西方實驗室或 DeepSeek 能生產前沿開源權重」的既有敘事。

技術規格解析

Hy3 Preview 採用稀疏 MoE 架構,在處理任意 token 時,2,950 億個參數中只有 210 億個被激活。相比同規模的稠密模型,這種設計可大幅降低每次前向推理的計算成本。騰訊聲稱,與前代混元模型相比,推理效率提升了 40%,其底層邏輯正在於此。

模型支援 256,000 token 的超長上下文視窗——約等於 20 萬個英文單詞,或一部長篇小說的篇幅——使其跻身少數可將完整程式碼庫、長篇法律文件或大型研究語料作為單一提示處理的前沿模型之列。這種能力對於需要在長對話序列中持續維持狀態的多步驟 AI 代理工作流而言至關重要。

在評估模型解決真實 GitHub 軟體工程問題能力的標準測試 SWE-bench Verified 上,Hy3 Preview 得分 74.4%。作為對比,Claude Opus 4.6 在同一基準上達到 80.8%,GPT-5.5 的數字也在相近區間。Hy3 Preview 的分數讓它穩穩落在西方前沿模型的射程之內,對一款用時不足三個月完成的模型而言,這個結果相當罕見。

騰訊團隊將架構描述為「快慢思維融合」——即在統一模型中整合快速的模式匹配推理(類似思維鏈捷徑)與慢速的深度推理,而非要求使用者或應用層在不同模式之間切換。

新領導層,新方向

Hy3 Preview 的開發速度和質量,與此前的領導層重組密不可分。騰訊此前的 AI 研究力量分散在多個相互競爭的內部團隊,導致資源重複、迭代緩慢。2026 年初,公司將 AI 研究整合到一位曾在 OpenAI 任職的新負責人麾下——這種招募模式與中國科技公司在出口管制收緊後加速引進西方 AI 人才的大趨勢相吻合。

新領導層帶來了不同的開發哲學:優先考慮產品部署整合而非基準測試成績,以產品實際使用情況而非排行榜名次衡量模型質量。Hy3 Preview 不是作為研究成果發布,而是以生產級模型姿態直接整合進騰訊的十餘款主力產品,包括旗下消費級 AI 助理元寶(Yuanbao)、微信和 QQ。

這種產品優先的策略在定價策略上清晰呈現。透過 TokenHub API 平台,Hy3 Preview 的輸入定價為每百萬 token 人民幣 1.2 元,輸出為每百萬 token 人民幣 4 元——低於多數西方替代方案,暗示騰訊希望在能力之外同時以性價比參與競爭。

開源策略與競爭定位

Hy3 Preview 以開源形式發布,模型權重可在 Hugging Face 上以寬鬆授權條款下載。這是深思熟慮後的戰略選擇。透過開源,騰訊參與了 DeepSeek 率先開創的生態動態:以開放性驅動採用、建立開發者對模型行為和優勢的熟悉度,並將模型權重定位為第三方公司可針對特定領域進行微調的基礎設施層。

這款模型進入了一個競爭日益激烈的開源前沿市場。DeepSeek 上週發布的 V4 系列在多項基準上處於領先,且在開發者心智佔有率上擁有先發優勢。Meta 的 Llama 模型仍是全球部署最廣泛的開源權重。Google 的 Gemma 4 系列提供了強力的輕量化選項。Hy3 Preview 在兩個維度上形成差異化:針對企業需求的超長上下文長度,以及讓其在規模化部署中具備經濟可行性的推理效率優勢。

時機選擇同樣值得關注。騰訊選擇在 DeepSeek V4 佔據媒體版面、Google-Anthropic 投資案同步發酵的一週內發布,這既可能是對自身模型實力的自信,也可能反映出競爭性 AI 開發的緊縮節奏——發布視窗由訓練完成時間決定,而非市場時機計算。

融入騰訊產品生態

比基準測試結果更有趣的,也許是產品整合的速度。Hy3 Preview 已在為元寶提供算力支撐——這款消費級 AI 助理在中國市場與百度文心一言和阿里通義千問直接競爭。考慮到微信逾 13 億月活規模,即便只是底層模型能力的邊際提升,對用戶體驗的影響也可能是億級規模的。

整合進微信和 QQ 也將 Hy3 Preview 定位為一款面向社交場景的 AI 模型,在對話細膩度、語氣適配和文化語境感知上的要求,遠超純粹的程式碼性能。騰訊的 SWE-bench 成績固然具有競爭力,但更難被複製的護城河,或許是模型處理中文語言語境、幽默語感和主流社交平台對話模式的能力。

對開源前沿生態的意義

Hy3 Preview 的發布延續了 2026 年初以來的一個趨勢:開源大模型與專有前沿模型之間的差距,正以比多數觀察者預期更快的速度縮小。一款 SWE-bench 得分 74.4%、可免費下載並開放商用授權、API 定價具備競爭力的模型,切實擴大了那些無法或選擇不依賴 OpenAI 或 Anthropic 的企業和開發者的選擇空間。

對於在數據主權敏感市場(東南亞、中東、部分歐洲國家)構建 AI 原生應用的開發者而言,一款來自具備騰訊基礎設施規模的中國公司的開源模型,其可信度已達到前一代模型所不及的程度。Hy3 Preview 能否建立起 DeepSeek 已積累的國際開發者社群,還有待觀察——但基礎已然清晰就位。

騰訊 Hy3 混元 混合專家架構 開源大模型 中國AI SWE-bench
分享

相關報導

DeepSeek V4:跑在華為晶片上的兆參數模型,正在改寫出口管制的邏輯

DeepSeek V4——一款專為全程運行於華為昇騰 950PR 晶片而設計的兆參數多模態模型——即將於本月公開發布,證明中國已在本土半導體硬體上實現前沿 AI 能力。以每百萬 token 0.5 美元的定價與估計僅 520 萬美元的訓練成本,它直接挑戰了「美國出口管制能約束中國 AI 發展」的基本前提。

1 分鐘閱讀

Z.ai 的 GLM-5.1 成為首個登頂 SWE-Bench Pro 的開源模型——全程跑在華為晶片上

中國 AI 實驗室 Z.ai 發布 GLM-5.1,這款擁有 7,540 億參數的開源模型在 SWE-Bench Pro 上拿下 58.4% 的成績,超越 GPT-5.4 與 Claude Opus 4.6,成為首個在業界最嚴苛程式碼修復基準上擊敗所有閉源模型的開放權重系統。更引人注目的是,整個訓練流程完全在華為昇騰 910B 晶片上完成,未使用任何 Nvidia 硬體。

1 分鐘閱讀

Google Gemma 4:採用 Apache 2.0 授權、擊敗 4000 億參數對手的開放權重模型

Google 發布的 Gemma 4 系列共四個模型,參數規模從 20 億到 310 億,全部採用完全開放的 Apache 2.0 授權——這是開放式 AI 模型有史以來最重要的效能躍升之一。310 億稠密模型在 Arena AI 排行榜全球名列第三,在 AIME 2026 數學測試中得到 89.2 分,LiveCodeBench 編程測試達 80%,且可免費商業部署、修改與再發布。

1 分鐘閱讀