Meta AI 首席宣稱「西瓜」模型已追上 GPT-5.5 性能

Meta 超智慧部門負責人 Alexandr Wang 在內部說明會上告訴員工，公司代號「Watermelon（西瓜）」的下一代模型，已在關鍵基準測試中追平 OpenAI 的 GPT-5.5。這項未經獨立驗證的宣告，顯示 Meta 正傾全力投入前沿 AI 競賽，力圖縮短與 OpenAI 及 Anthropic 之間的性能差距。

1 小時前 1 分鐘閱讀

Meta 超智慧部門負責人 Alexandr Wang 於 2026 年 7 月 3 日在一場內部全員會議上告訴員工，公司下一代模型——內部代號「Watermelon（西瓜）」——已在關鍵基準測試中追平 OpenAI 的 GPT-5.5。這項消息由《Business Insider》率先披露，尚未獲得獨立驗證，且所引用的具體基準測試至今未予公開。但它所傳遞的信號——關於 Meta AI 野心的走向——已足夠重要，值得認真解讀。

Wang 將這項宣告定調為 Meta 大規模基礎設施投資已開始轉化為前沿模型性能的佐證，對於一家在過去 18 個月間始終被視為「快速跟隨者」而非「前沿制定者」的公司而言，這是一個至關重要的內部訊息。

關於「西瓜」，我們知道什麼

Watermelon 是 Meta 繼 Avocado（內部曾稱為 Muse Spark，2026 年 4 月發布）之後的下一個大型語言模型。這個代號延續了 Meta 近期以大型食物為內部模型命名的傳統，這一命名習慣並未掩蓋其中的戰略嚴肅性。

Wang 描述 Watermelon 目前仍在訓練中，「需要比 Avocado 多出顯著的算力」。這與 Meta 公開已知的基礎設施擴建規模相符：公司在過去一年中持續委託建造超大規模 GPU 叢集，並暗示 2026 年單年 AI 基礎設施支出將達 600 至 700 億美元。Watermelon 顯然是這些投資預定受益的旗艦成果。

雖未獲驗證，但外洩的基準分數已具體到值得注意的程度。MMLU（大規模多任務語言理解）上，Watermelon 得分 92.4%——與 GPT-5.5 公開數據完全相同。HumanEval（Python 程式能力標準測試）中，Watermelon 解決了 96.3% 的題目，而 GPT-5.5 為 96.1%。GSM8K（數學推理基準）呈現同樣的難分高下：94.7% 對 94.5%。這些是仍在訓練中的模型的精選分數，缺乏獨立驗證，可信度存疑——但其具體程度暗示 Wang 是在引用真實的內部評測數據，而非樂觀的願景投影。

值得認真看待的注意事項

這項宣告附帶了幾個重要限制條件，應當節制對其的解讀。

第一，Watermelon 尚未發布。 它仍在訓練中。訓練中模型的基準分數可能隨訓練進程發生重大變化。Wang 的內部說明本質上是一份進度報告，而非發布公告。

第二，所引用的基準測試——MMLU、HumanEval、GSM8K——是業界最廣泛使用的評測工具，但也是最飽和的。 OpenAI、Anthropic 和 Google 的頂尖模型在這些測試上都已達到極高分數，以至於頂尖模型之間的差異往往在誤差範圍內。在 MMLU 和 GSM8K 上達到同等水準固然有意義，但這個意義已遠不如兩年前。

第三，Meta 有著內部宣稱無法完全在公開評測中兌現的紀錄。 Wang 上任以來以自信斷言見長，這不代表他的說法是錯的，但在 Watermelon 公開發布並接受獨立評測之前，對這些數字保持一定的保留是明智的。

更大的圖景：Meta 的追趕之戰

這個宣告落地的背景，與宣告本身同樣重要。在前沿模型競賽中，Meta 過去一年一直處於尷尬的處境。其 LLaMA 系列開放權重模型在開源社群極具影響力，但在商業基準和企業客戶關心的頭對頭評測中，Meta 最強的模型始終與 OpenAI 的 GPT 和 Anthropic 的 Claude 存在明顯差距。

這個差距帶來實質業務影響。Meta 在 WhatsApp、Instagram、Facebook 及硬體產品上的 AI 功能，直接與競爭對手模型驅動的產品競爭。如果 Watermelon 真的縮短了與 GPT-5.5 的性能差距，這將是 Meta 前沿模型首次與 OpenAI 頂尖商業產品「競爭」而非「只是一個可行的替代方案」。

值得注意的是，此宣告發生在 Meta CEO 祖克柏公開承認過去四個月智能代理 AI 的發展軌跡「並未如預期般加速」的一周後。那番表態被廣泛解讀為對他在 2026 年 1 月提出「年底前實現超智慧」定調的軟化。Wang 的西瓜宣告，在一定程度上可以被讀作對這一敘事的修正——斷言 Meta 仍然在前沿競賽中，即便代理 AI 的時間表已有所延後。

接下來會發生什麼

實際問題在於 Watermelon 何時發布，以及它在第三方評測中的表現。Meta 一貫選擇以某種形式向公眾發布其前沿模型——部分出於對開放發展的戰略承諾，部分作為在全球開發者生態中播下模型種子的分發優勢。如果 Watermelon 的性能如 Wang 所稱，Meta 很可能至少會發布開放權重版本，並在其消費者產品中全面部署。

對整個 AI 產業而言，一個真正能比肩 GPT-5.5 性能的 Meta 模型將是一個重大進展。它意味著訓練前沿模型所需的龐大資源，不再只有兩三個機構能夠調動。前沿的競爭對用戶有利，通常會推低價格，並加速對所有人都有益的研究進展。

Wang 的基準聲稱能否在獨立評測中站得住腳，還有待觀察。但其描述的發展方向，與 Meta 正在建造的基礎設施相符，也與每年 600 億美元的 AI 基礎設施投資持續兩年所應當產生的結果相符。

西瓜模型的基準測試宣稱由《Business Insider》於 2026 年 7 月 3 日率先報導，依據一場 Meta 內部說明會。

資料來源

Meta Watermelon 西瓜模型 GPT-5.5 Alexandr Wang 前沿模型 AI 競賽基準測試祖克柏

Meta AI 首席宣稱「西瓜」模型已追上 GPT-5.5 性能

關於「西瓜」，我們知道什麼

值得認真看待的注意事項

更大的圖景：Meta 的追趕之戰

接下來會發生什麼

資料來源

相關報導

Anthropic 推出 Claude Sonnet 5：以一半價格實現旗艦級 AI 自動化能力

OpenAI 發布三層架構 GPT-5.6：美國政府先審查，大眾稍後才能用

祖克柏向員工坦承：Meta AI Agent進展不如預期