跳至主要內容
FAQ

Meta AI 首席宣稱「西瓜」模型已追上 GPT-5.5 性能

Meta 超智慧部門負責人 Alexandr Wang 在內部說明會上告訴員工,公司代號「Watermelon(西瓜)」的下一代模型,已在關鍵基準測試中追平 OpenAI 的 GPT-5.5。這項未經獨立驗證的宣告,顯示 Meta 正傾全力投入前沿 AI 競賽,力圖縮短與 OpenAI 及 Anthropic 之間的性能差距。

1 分鐘閱讀

Meta 超智慧部門負責人 Alexandr Wang 於 2026 年 7 月 3 日在一場內部全員會議上告訴員工,公司下一代模型——內部代號「Watermelon(西瓜)」——已在關鍵基準測試中追平 OpenAI 的 GPT-5.5。這項消息由《Business Insider》率先披露,尚未獲得獨立驗證,且所引用的具體基準測試至今未予公開。但它所傳遞的信號——關於 Meta AI 野心的走向——已足夠重要,值得認真解讀。

Wang 將這項宣告定調為 Meta 大規模基礎設施投資已開始轉化為前沿模型性能的佐證,對於一家在過去 18 個月間始終被視為「快速跟隨者」而非「前沿制定者」的公司而言,這是一個至關重要的內部訊息。

關於「西瓜」,我們知道什麼

Watermelon 是 Meta 繼 Avocado(內部曾稱為 Muse Spark,2026 年 4 月發布)之後的下一個大型語言模型。這個代號延續了 Meta 近期以大型食物為內部模型命名的傳統,這一命名習慣並未掩蓋其中的戰略嚴肅性。

Wang 描述 Watermelon 目前仍在訓練中,「需要比 Avocado 多出顯著的算力」。這與 Meta 公開已知的基礎設施擴建規模相符:公司在過去一年中持續委託建造超大規模 GPU 叢集,並暗示 2026 年單年 AI 基礎設施支出將達 600 至 700 億美元。Watermelon 顯然是這些投資預定受益的旗艦成果。

雖未獲驗證,但外洩的基準分數已具體到值得注意的程度。MMLU(大規模多任務語言理解)上,Watermelon 得分 92.4%——與 GPT-5.5 公開數據完全相同。HumanEval(Python 程式能力標準測試)中,Watermelon 解決了 96.3% 的題目,而 GPT-5.5 為 96.1%。GSM8K(數學推理基準)呈現同樣的難分高下:94.7% 對 94.5%。這些是仍在訓練中的模型的精選分數,缺乏獨立驗證,可信度存疑——但其具體程度暗示 Wang 是在引用真實的內部評測數據,而非樂觀的願景投影。

值得認真看待的注意事項

這項宣告附帶了幾個重要限制條件,應當節制對其的解讀。

第一,Watermelon 尚未發布。 它仍在訓練中。訓練中模型的基準分數可能隨訓練進程發生重大變化。Wang 的內部說明本質上是一份進度報告,而非發布公告。

第二,所引用的基準測試——MMLU、HumanEval、GSM8K——是業界最廣泛使用的評測工具,但也是最飽和的。 OpenAI、Anthropic 和 Google 的頂尖模型在這些測試上都已達到極高分數,以至於頂尖模型之間的差異往往在誤差範圍內。在 MMLU 和 GSM8K 上達到同等水準固然有意義,但這個意義已遠不如兩年前。

第三,Meta 有著內部宣稱無法完全在公開評測中兌現的紀錄。 Wang 上任以來以自信斷言見長,這不代表他的說法是錯的,但在 Watermelon 公開發布並接受獨立評測之前,對這些數字保持一定的保留是明智的。

更大的圖景:Meta 的追趕之戰

這個宣告落地的背景,與宣告本身同樣重要。在前沿模型競賽中,Meta 過去一年一直處於尷尬的處境。其 LLaMA 系列開放權重模型在開源社群極具影響力,但在商業基準和企業客戶關心的頭對頭評測中,Meta 最強的模型始終與 OpenAI 的 GPT 和 Anthropic 的 Claude 存在明顯差距。

這個差距帶來實質業務影響。Meta 在 WhatsApp、Instagram、Facebook 及硬體產品上的 AI 功能,直接與競爭對手模型驅動的產品競爭。如果 Watermelon 真的縮短了與 GPT-5.5 的性能差距,這將是 Meta 前沿模型首次與 OpenAI 頂尖商業產品「競爭」而非「只是一個可行的替代方案」。

值得注意的是,此宣告發生在 Meta CEO 祖克柏公開承認過去四個月智能代理 AI 的發展軌跡「並未如預期般加速」的一周後。那番表態被廣泛解讀為對他在 2026 年 1 月提出「年底前實現超智慧」定調的軟化。Wang 的西瓜宣告,在一定程度上可以被讀作對這一敘事的修正——斷言 Meta 仍然在前沿競賽中,即便代理 AI 的時間表已有所延後。

接下來會發生什麼

實際問題在於 Watermelon 何時發布,以及它在第三方評測中的表現。Meta 一貫選擇以某種形式向公眾發布其前沿模型——部分出於對開放發展的戰略承諾,部分作為在全球開發者生態中播下模型種子的分發優勢。如果 Watermelon 的性能如 Wang 所稱,Meta 很可能至少會發布開放權重版本,並在其消費者產品中全面部署。

對整個 AI 產業而言,一個真正能比肩 GPT-5.5 性能的 Meta 模型將是一個重大進展。它意味著訓練前沿模型所需的龐大資源,不再只有兩三個機構能夠調動。前沿的競爭對用戶有利,通常會推低價格,並加速對所有人都有益的研究進展。

Wang 的基準聲稱能否在獨立評測中站得住腳,還有待觀察。但其描述的發展方向,與 Meta 正在建造的基礎設施相符,也與每年 600 億美元的 AI 基礎設施投資持續兩年所應當產生的結果相符。


西瓜模型的基準測試宣稱由《Business Insider》於 2026 年 7 月 3 日率先報導,依據一場 Meta 內部說明會。

Meta Watermelon 西瓜模型 GPT-5.5 Alexandr Wang 前沿模型 AI 競賽 基準測試 祖克柏
分享

相關報導

祖克柏向員工坦承:Meta AI Agent進展不如預期

Meta執行長馬克·祖克柏在7月2日的內部員工大會上罕見承認,公司AI Agent開發進展「未能如預期般加速」——儘管Meta今年斥資高達1450億美元打造AI基礎設施,並已裁員數千人以全力押注AI轉型。祖克柏表示,預計未來三到六個月情況將有所改善。

1 分鐘閱讀