OpenAI「Spud」完成預訓練——GPT-5.5還是GPT-6,數週內揭曉
OpenAI的下一代旗艦模型,內部代號「Spud」,已於3月24日完成預訓練。執行長Sam Altman形容這是「能真正加速經濟發展的強力模型」,總裁Greg Brockman則稱其代表「兩年研究成果」、帶來質的改變。預測市場目前給出78%的機率,認為公開版本將在4月底前上線——而最終商業名稱是GPT-5.5還是GPT-6,至今仍懸而未定。
2026年AI產業最受矚目的模型發表,可能只剩數週。OpenAI已完成下一代前沿模型的預訓練,內部代號「Spud」——而公司高層罕見地打破慣常的沉默,以暗示這一次有所不同的語氣親自為新模型造勢。
3月24日,科技媒體《The Information》率先披露Spud預訓練完成的消息。幾天內,Sam Altman與Greg Brockman雙雙以出乎意料坦率的口吻確認這項里程碑。Altman對員工表示,這款新模型是「能真正加速經濟發展的強力模型」。Brockman在《Big Technology》播客中更進一步:「這代表兩年的研究成果。它有一種大模型的感覺——這不是漸進式的改進,而是我們對模型開發方式思考的重大轉變。」
「大模型的感覺」、「重大轉變」——這類措辭不是例行公事。它釋放出一個訊號:Spud代表的是OpenAI自GPT-5推出以來一直在積累的那種能力躍升,而非只是現有架構的精修。
爭奪基準測試冠位的競賽
Spud發表的急迫性,在競爭態勢中清晰可見。Google於2026年2月發表的Gemini 3.1 Pro,目前在主要追蹤的18項基準測試中領先其中12項。在以懲罰依賴記憶化模式的模型著稱的ARC-AGI-2抽象推理測試中,Gemini 3.1 Pro得分77.1%,推論效能較前代翻倍以上;在GPQA Diamond這個頂級科學推理基準上,它更達到94.3%的高分。以大約三分之一競爭前沿模型API費用的定價,Gemini 3.1 Pro讓Google取得了自2023年GPT-4震撼市場以來最強勢的基準表現。
與此同時,Anthropic的Claude Opus 4.6在軟體工程基準上保持領先,SWE-Bench Verified得分80.8%,微幅勝過Gemini 3.1 Pro的80.6%。xAI的Grok 4.20則憑藉其四代理平行架構展現出強勁的推理與自主執行能力。OpenAI現役旗艦GPT-5.4 Thinking在知識工作與電腦操作任務上仍有優勢——但前沿差距正在收窄,而Spud就是OpenAI的回應。
GPT-5.5還是GPT-6?命名本身就是訊號
OpenAI將給Spud冠上什麼商業名稱,本身就是一個值得關注的故事。公司已公開表示,命名決策取決於效能相對於GPT-5.4的躍升幅度。如果基準測試顯示出跨世代的飛躍——足以支撐主版本號遞增的那種改變——Spud就會以GPT-6名義上市。若是仍屬同一世代的強力但漸進式推進,則命名為GPT-5.5。
這個框架的意義在於:命名本身成為OpenAI對能力躍升規模的公開宣示。GPT-6的稱號,代表OpenAI發出最強音,聲稱這不只是又一次模型更新,而是其技術進入下一個重大時代——很可能帶來足以改變AI系統自主完成任務能力邊界的自主性、推理與多模態突破。
AI分析師Adam Holter援引的洩漏基準測試結果顯示,Spud的效能或許接近Anthropic的「Claude Mythos」——後者是Anthropic自家的未公開前沿模型,在因網路安全疑慮決定不對外發布前,內部評估顯示出驚人的能力。若此說屬實,Spud的水準將完全進入GPT-6的範疇。
以週計算的倒數時程
OpenAI近期模型從預訓練完成到公開發布的標準窗口為三至六週,涵蓋安全評估、紅隊測試與基礎設施準備。套用於Spud在3月24日完成預訓練的時間點,這個窗口大約落在4月14日至5月5日之間。
預測市場Polymarket目前給出78%的機率,認為Spud將在4月30日前發布;在6月30日前發布的信心水準更超過95%。根據洩漏的內部通訊,AI社群中流傳著4月16日的可能發布日期,但OpenAI尚未確認任何具體日期。
安全評估階段絕非走過場。自GPT-5.4以來,OpenAI已大幅擴充紅隊測試計畫,一方面回應歐盟日益嚴格的監管審查,另一方面履行在美國政府框架下的自願承諾。Anthropic因在紅隊測試中發現網路安全風險而決定完全封存Claude Mythos的決定,也將「負責任的發布實踐」的門檻抬得更高。OpenAI深知Spud的發布流程將受到嚴密審視。
算力重新分配:Sora悄然落幕
技術觀察者注意到的一個細節:OpenAI據報正在關閉其影片生成產品Sora,以釋出算力用於Spud的部署。Sora於2025年初以大量聲量登場,但從未實現足以支撐在GPT-5.x大規模推論需求之外維持其基礎設施成本的商業吸引力。將這部分算力重新導向Spud,顯示公司正在動員所有可用資源,確保新模型以足夠的容量上線,避免早期版本飽受詬病的服務中斷問題。
這次重新分配也折射出OpenAI的價值取捨:不是令人眼睛一亮卻難以留存用戶的多模態生成功能,而是企業客戶願意支付頂級API費率換取的原始推理與自主執行能力。
對模型本身的預期
儘管詳細的架構資訊尚未官方披露,但洩漏資訊與分析師報告中浮現出幾條一致的脈絡。Spud預計將大幅改善推理能力,尤其是在多步邏輯與數學問題上——現有模型在這類問題上仍會系統性地犯錯。它被描述為具備更強的自主執行能力,能以最少的人工監督完成長程任務;並在複雜程式碼與軟體工程基準上有所提升,逐步追趕目前領先的Claude Opus 4.6。
這款模型幾乎可以確定將具備擴展的上下文視窗,並升級在GPT-5.4上已初露鋒芒的電腦操作能力。若Greg Brockman「大模型感覺」的措辭指向任何具體特質,那很可能是更連貫的長程推理:在比現有模型更長的任務序列中維持脈絡、追蹤目標並從錯誤中恢復的能力。
攸關OpenAI IPO敘事的高風險發布
Spud發布的時機,意義遠超基準測試本身。OpenAI正處於公開上市流程的早期階段,目標是在2026年下半年進行IPO。公司年化營收已突破250億美元,但在投資銀行審查最嚴的這項指標上,落後於最近跨越300億美元ARR、首次超越OpenAI的Anthropic。
若發布一款模型,能可信地從Gemini 3.1 Pro手中奪回基準測試領先地位,並縮短在程式碼任務上與Claude Opus 4.6的差距,將在進入IPO路演季前,大幅強化OpenAI的資本市場敘事。另一個選項——坐視Google與Anthropic超越那家開啟現代AI時代的公司的故事繼續發酵——是OpenAI管理層顯然不會接受的結局。
Spud不只是一次模型發布。它是OpenAI將前沿AI的故事焦點重新拉回自身的一次重大押注。