GPT-5 內部跑分外洩 — 數據說的跟 OpenAI 想講的完全不同

內部測試結果顯示 GPT-5 的進步幅度比預期窄很多。「加大就對了」的時代可能正式結束了，但這對整個產業來說其實是好消息。

2026年4月4日 1 分鐘閱讀

OpenAI 最不想看到的洩漏

一組據稱來自 OpenAI GPT-5 內部評估的跑分結果，本週在某個研究論壇上短暫出現後被迅速刪除。多個可靠消息來源已經證實了關鍵數據。

這些數字很有意思 — 但不是你預期的那種有意思。

根據外洩數據：

寫程式 (HumanEval+)：GPT-5 得分 94.2%，GPT-4 是 86.6%。進步明顯，但不是 GPT-3→4 那種世代級跳躍。
推理 (ARC-AGI-2)：71.8%，GPT-4 是 55.3%。真的有進步，但仍然低於 Claude Opus 和 Gemini Ultra 在特定配置下的表現。
數學 (MATH-500)：96.1% — 基本上到天花板了。GPT-4 已經是 92.4%。
創意寫作：人類評測員在盲測中只給 GPT-5 比 GPT-4 高 4% 的分數。幾乎分不出來。
多語言任務：這才是真正的驚喜 — GPT-5 在低資源語言上展現 15-20% 的提升。這才是算力真正去的地方。

這些數據的真正含義是：預訓練的 scaling 範式在英語任務上已經進入收益遞減。

據報導，OpenAI 在 GPT-5 訓練上燒掉了 35,000 顆 H100 等效算力 — 大約是 GPT-4 的 3 倍。換來的是大多數跑分上的個位數百分比提升。

這不是失敗。這是物理定律。當你在一個跑分上已經超過 90%，剩下的每一分都需要指數級的算力才能擠出來。真正有趣的問題是接下來會發生什麼。

「加大就對了」的路線走到盡頭，會逼整個產業走向更有創意的方向：

專精化取代通用化 — 與其一個巨大模型什麼都勉強能做，未來會是一系列更小、特定領域的模型，在各自的專業上做到極致。
後訓練成為關鍵 — 真正的增益現在來自 RLHF、工具使用、Agent 能力和推理時運算。基礎模型只是起點。
基礎設施更重要 — 如果原始模型性能趨於平穩，贏家會是誰的周邊建設做得最好：記憶體管理、工具整合、可靠性、延遲。
開源模型追上來了 — 當前沿不再快速移動，開源模型就能縮小差距。Llama 4 和 Mistral Large 在很多任務上已經可以跟 GPT-4 掰手腕。

AI 競賽正從「誰的模型最聰明」轉向「誰的系統最好用」。這是根本不同的競爭 — Apple 的端側路線、Anthropic 的安全優先策略、Google 的整合優勢，都因此變得更有分量。

OpenAI 蓋了大教堂。現在所有人都在圍繞它建城市。

Scaling 撞牆不是 AI 進步的終點。是容易部分的終點。接下來的發展會更難、更混亂，但最終也會更有趣。

openai gpt-5 scaling-laws benchmarks llm