GPT-5 內部跑分外洩 — 數據說的跟 OpenAI 想講的完全不同
內部測試結果顯示 GPT-5 的進步幅度比預期窄很多。「加大就對了」的時代可能正式結束了,但這對整個產業來說其實是好消息。
OpenAI 最不想看到的洩漏
一組據稱來自 OpenAI GPT-5 內部評估的跑分結果,本週在某個研究論壇上短暫出現後被迅速刪除。多個可靠消息來源已經證實了關鍵數據。
這些數字很有意思 — 但不是你預期的那種有意思。
跑分到底說了什麼
根據外洩數據:
- 寫程式 (HumanEval+):GPT-5 得分 94.2%,GPT-4 是 86.6%。進步明顯,但不是 GPT-3→4 那種世代級跳躍。
- 推理 (ARC-AGI-2):71.8%,GPT-4 是 55.3%。真的有進步,但仍然低於 Claude Opus 和 Gemini Ultra 在特定配置下的表現。
- 數學 (MATH-500):96.1% — 基本上到天花板了。GPT-4 已經是 92.4%。
- 創意寫作:人類評測員在盲測中只給 GPT-5 比 GPT-4 高 4% 的分數。幾乎分不出來。
- 多語言任務:這才是真正的驚喜 — GPT-5 在低資源語言上展現 15-20% 的提升。這才是算力真正去的地方。
Scaling 撞牆是真的
這些數據的真正含義是:預訓練的 scaling 範式在英語任務上已經進入收益遞減。
據報導,OpenAI 在 GPT-5 訓練上燒掉了 35,000 顆 H100 等效算力 — 大約是 GPT-4 的 3 倍。換來的是大多數跑分上的個位數百分比提升。
這不是失敗。這是物理定律。當你在一個跑分上已經超過 90%,剩下的每一分都需要指數級的算力才能擠出來。真正有趣的問題是接下來會發生什麼。
為什麼這其實是好消息
「加大就對了」的路線走到盡頭,會逼整個產業走向更有創意的方向:
-
專精化取代通用化 — 與其一個巨大模型什麼都勉強能做,未來會是一系列更小、特定領域的模型,在各自的專業上做到極致。
-
後訓練成為關鍵 — 真正的增益現在來自 RLHF、工具使用、Agent 能力和推理時運算。基礎模型只是起點。
-
基礎設施更重要 — 如果原始模型性能趨於平穩,贏家會是誰的周邊建設做得最好:記憶體管理、工具整合、可靠性、延遲。
-
開源模型追上來了 — 當前沿不再快速移動,開源模型就能縮小差距。Llama 4 和 Mistral Large 在很多任務上已經可以跟 GPT-4 掰手腕。
真正的競爭已經轉向
AI 競賽正從「誰的模型最聰明」轉向「誰的系統最好用」。這是根本不同的競爭 — Apple 的端側路線、Anthropic 的安全優先策略、Google 的整合優勢,都因此變得更有分量。
OpenAI 蓋了大教堂。現在所有人都在圍繞它建城市。
觀察重點
- OpenAI 官方的 GPT-5 發表(預計五月/六月)— 注意他們怎麼包裝敘事
- 他們會走向專精化還是繼續死磕規模
- Anthropic 的回應(Claude 5?)以及是否採取不同的架構路線
- 開源社群的反應 — 這些數據驗證了「小模型 + 好的後訓練」的論點
Scaling 撞牆不是 AI 進步的終點。是容易部分的終點。接下來的發展會更難、更混亂,但最終也會更有趣。