跳至主要內容
FAQ

xAI 在 SpaceX 與 Tesla 部署 Grok 4.5:1.5 兆參數的豪賭,卻沒有任何公開基準測試

xAI 的 Grok 4.5 已在 SpaceX 和 Tesla 進入私人測試,搭載 1.5 兆參數的全新 V9 架構,規模約為前一代的三倍。馬斯克宣稱效能媲美 Claude Opus,但迄今沒有任何獨立驗證,引發外界對封閉式前沿 AI 測試的深層質疑。

1 分鐘閱讀

2026 年 6 月 28 日,馬斯克在 X 上發出了讓整個 AI 圈騷動的四個英文字:「Grok 4.5 private beta」。他確認,這個模型已進入受控測試,部署對象是他旗下兩間工程文化最為濃厚的企業——SpaceX 與 Tesla——也標誌著 xAI 全新 V9 基礎架構的首次實際部署。這套架構擁有 1.5 兆個參數,據稱比支撐舊版 Grok 4 系列的 V8-small 架構大了將近三倍。

讓這則公告引發廣泛討論的,不只是模型的規模本身,更在於宣傳的方式。馬斯克聲稱,早期內部評估顯示 Grok 4.5 的表現「接近甚至超越」Anthropic 的旗艦產品 Claude Opus,隨即便什麼佐證都沒有提供:沒有基準測試套件、沒有系統說明卡、沒有開放第三方存取,只有一個在非獨立評估環境下進行的私人測試。

V9 架構的底層邏輯

根據 xAI 的內部時程,V9 基礎模型於 2026 年 5 月 26 日完成預訓練。6 月 28 日的公告,代表後訓練階段(包括強化學習、指令調整與安全對齊)已告完成,模型正式進入可部署狀態。

1.5 兆參數的量級,讓 xAI 直接站上了和 Google DeepMind 與 Anthropic 旗艦模型相同的量級。值得注意的是,Anthropic 從未公開 Claude 的參數數量,OpenAI 對 GPT-5 的規模同樣諱莫如深。xAI 在原始規模上選擇透明,卻在幾乎其他所有真正重要的技術細節上保持不透明——這是一種頗具計算性的資訊策略。

訓練管線中另一個值得關注的細節,是 Cursor 資料的引入。Cursor 是近年來在開發者社群中急速竄紅的 AI 輔助編程工具,其使用者操作資料被整合進 Grok 4.5 的補充訓練流程,用以強化模型在技術與程式設計場景的能力。值得注意的是,這批資料在預訓練結束後才被納入,而非從預訓練起始階段便融入模型底層。這樣的訓練順序究竟如何影響模型在程式推理深度與通用知識廣度之間的取捨,目前仍是外部研究人員無從回答的問題。

把自家公司當試驗場

選擇在 SpaceX 和 Tesla 內部進行測試,而非公開發布,是一步經過計算的棋。這兩家公司都是以工程為本的環境,模型將面對真實且困難的業務需求:火箭軌道模擬、自動駕駛訓練管線、製造瑕疵偵測、供應鏈分析,以及大量的技術文件與程式碼審閱工作。

這種內部部署有雙重價值。一方面,它能從真正的專業使用者在真實操作壓力下產出高品質、難以複製的反饋資料——這是人工合成的基準測試永遠無法提供的訊號。另一方面,它讓 xAI 得以在公開亮相之前找出並修正模型的失敗案例,降低高知名度失誤帶來的聲譽損失。

然而代價同樣清晰:評估工作完全局限在馬斯克自己的企業生態圈內。SpaceX 和 Tesla 的工程師固然是嚴苛的使用者,卻不是中立的評估者。他們服務的組織,在 Grok 4.5 是否夠好這件事上,有著直接的財務與戰略利益。

基準測試的真空地帶

在一個各家前沿實驗室激烈競逐公開排行榜的市場裡——MMLU、GPQA、SWE-bench、LiveCodeBench 都是常見戰場——xAI 拒絕提交 Grok 4.5 接受任何外部評估,顯得格外突出。公司既未發布系統說明卡,也未開放研究人員的 API 存取,更未公布任何具體時程。

這是 xAI 首次在缺乏任何可驗證佐證的情況下,明確宣稱效能與具名競爭對手的旗艦產品並駕齊驅。AI 安全社群對這種「靠新聞稿做基準測試」的做法愈發不滿。公告發出後 48 小時內,就有多位知名研究人員公開呼籲 xAI 開放模型接受獨立評估,目前公司尚未回應。

系統說明卡的缺席尤其值得關注。在當前監管環境下,歐盟《AI 法案》的高風險條款,以及白宮目前正與 OpenAI、Anthropic 和 Google 共同擬定的自願性前沿模型標準,都強調透明度要求。一個 1.5 兆參數、部署在 SpaceX 等關鍵基礎設施企業的模型,在幾乎任何合理框架下都應受到更嚴格的外部審查。

每月一個新模型的激進節奏

或許比任何單一能力宣稱更值得關注的,是 xAI 公布的產品路線圖:公司計畫在 2026 年剩餘時間內,每個月從頭訓練並發布一個全新的 AI 模型。V9 基礎模型於五月完成訓練;Grok 4.5 在六月底進入測試;而內部路線圖據報顯示,Grok 5 系列將最終達到 10 兆個參數。

如果這個節奏得以維持,代表的是一個明確的賭注:在前沿 AI 的競爭中,迭代速度——而非任何單一時間點凍結的基準成績——才是最關鍵的競爭變數。這套哲學在馬斯克的其他事業裡屢試不爽:Tesla 的無線更新重新定義了汽車業的發布週期;SpaceX 對星艦的「測試到極限」快速迭代,造就了史上第一枚完全可重複使用的重型運載火箭。

但這套邏輯是否適用於前沿 AI,仍有真正的不確定性。這個量級的訓練成本動輒數億美元,倉促完成的後訓練與精心打磨的後訓練之間,品質差距可能相當巨大,而且在缺乏獨立評估的情況下極難發現。更重要的是,部署在關鍵基礎設施的行為失當 AI 模型,其造成的損害難以溯源,更難以逆轉。

即便如此,這對競爭對手造成的壓力是真實的。Anthropic 在 Claude Sonnet 5 大獲成功後,已透露加快模型發布節奏的計畫。OpenAI 據報正為不同部署場景準備多個 GPT-5.6 變體。Google DeepMind 儘管本季度人才流失不斷,也暗示 Gemini 3.5 Pro 將在夏末前亮相。

一場關於責任的深層辯論

Grok 4.5 的私人測試,不只是一個產品發布事件,更是一個關於「負責任的前沿 AI 開發應該是什麼樣子」的辯論節點。一邊是 Anthropic 強調「憲法 AI」、廣泛的系統說明卡與公開的紅隊測試承諾;另一邊是一個被部署在火箭公司與電動車企業、打出無法核實的效能宣傳、並承諾每月推出新版本的 1.5 兆參數模型。

對場外觀望的企業客戶而言,問題其實很直接:如果 Grok 4.5 終有一天公開發布,那些能力宣稱能否禁得起獨立評估的檢驗?對 AI 安全社群而言,問題是:一個這種規模、部署在關鍵基礎設施企業、缺乏外部審查的模型,進入生產環境究竟是否恰當?而對競爭對手而言,答案大概只有一個:繼續加快腳步。這場競賽還在進行,沒有人在等待基準測試結果。

xAI Grok 馬斯克 SpaceX Tesla 大型語言模型 前沿AI AI基準測試
分享

相關報導