OpenRouter Fusion:廉價模型組合超越 GPT-5.5,成本只要一半
OpenRouter 於 6 月 13 日推出 Fusion,這是一個多模型 API,將提示詞同時發送給多個 AI 模型,再由裁判模型將各方回覆合成為單一答案。由 Gemini 3 Flash、Kimi K2.6 和 DeepSeek V4 Pro 組成的預算組合,在 DRACO 深度研究基準測試上得分 64.7%,以約一半的成本匹敵 Fable 5 的單獨表現;而頂級的 Fable 5 加 GPT-5.5 組合則達到 69%,超越所有單獨測試的模型。
集體智慧研究中存在一個反直覺的規律:只要各成員的錯誤相互獨立、優勢互補,由多個個別能力有限的成員組成的多元群體,往往能持續超越群體中表現最佳的單一成員。OpenRouter 於 2026 年 6 月 13 日推出的 Fusion API,正是在測試這個規律能否從人類團隊轉移到 AI 模型組合——而早期基準測試結果顯示,答案是肯定的。
Fusion 是一個建立在 OpenRouter 現有模型聚合基礎設施上的多模型路由系統。它不是將提示詞發送給一個模型然後等待一個回覆,而是將提示詞同時分發給可配置的模型組合,每個模型都配備了網路搜尋和擷取能力。一個指定的裁判模型——在 OpenRouter 的基準配置中為 Claude Opus 4.8——同時接收所有回覆,分析其共識點、矛盾之處、部分覆蓋和獨特見解,然後合成一個最終答案。
整個過程在服務端執行,以單一 API 呼叫的形式提供,意味著 Fusion 只需更改模型參數即可整合到現有管線中,無需任何架構更動。
基準測試結果
OpenRouter 在 DRACO(其內部深度研究任務套件)上評估了 Fusion,這套任務需要廣泛的網路檢索、跨多來源的合成以及對衝突資訊的細緻判斷。選擇這個基準是因為它的任務類型正是模型多元性可能發揮作用的場景——一個模型的知識盲點,或許能被另一個模型的優勢填補;而呈現來源之間的矛盾,往往比單一模型自信卻可能不完整的答案更有價值。
結果在成本頻譜的兩端都令人印象深刻。
在頂級組合中,以 Opus 4.8 作為裁判,將 Fable 5 和 GPT-5.5 組成面板,得分 69.0%。Fable 5 在相同任務上單獨運行得分 65.3%;GPT-5.5 單獨則為 60.0%。融合面板超越了兩個組成模型各自的表現,組合分數超過了任何一個模型單獨能達到的水準。OpenRouter 將這一增益歸因於互補覆蓋:Fable 5 的推理深度結合 GPT-5.5 的檢索模式,在合成前產生了更廣泛的相關資訊掃描。
對大多數開發者而言可能更具實際意義的是:預算組合——Gemini 3 Flash、Kimi K2.6 和 DeepSeek V4 Pro——在相同基準上得分 64.7%。這高於 GPT-5.5 的單獨得分 60.0%,且基本上與 Fable 5 個別表現的 65.3% 持平,成本僅約單獨使用 Fable 5 的一半(而且考慮到 Fable 5 自 6 月 12 日起因美國出口管制而下線,成本更是遠低於此)。
OpenRouter 還測試了同模型自我融合:將 Opus 4.8 與自身配對,並使用第三個 Opus 4.8 實例作為裁判,得分 65.5%——比單獨的 Opus 4.8(58.8%)提升了 6.7 個百分點。即使沒有模型多元性,讓裁判審查多個獨立運行並識別其中的共識與分歧的結構化合成過程,也能帶來可測量的增益。
裁判模型的工作原理
合成步驟是 Fusion 設計與簡單集成方法(如多數投票或輸出平均)的區別所在。裁判模型接收所有面板回覆,在生成最終答案之前,以 JSON 格式生成結構化分析:
- 共識點:所有或大多數面板模型同意的聲明,被視為置信度較高
- 矛盾之處:模型間需要明確解決或保留不確定性的事實性分歧
- 部分覆蓋:部分模型涉及而其他模型未涉及的主題
- 獨特見解:僅由一個面板成員提出的觀察
- 盲點:通過推斷缺失資訊識別出的、所有面板成員都未涉及的空白
這種結構化分解迫使合成過程明確呈現不確定性,而非將其平均化。一個被問及複雜研究問題的單一模型,往往會給出一個自信的答案,默默掩蓋其知識盲點;而 Fusion 裁判被設計為將這些盲點作為輸出的一部分加以呈現,讓調用者能夠判斷答案在哪裡有充分支撐、在哪裡仍屬推測。
適用與不適用的場景
OpenRouter 明確指出 Fusion 針對的是深度研究和合成任務,而非作為直接模型存取的通用替代品。
對於長鏈路編程任務——目前 GLM-5.2 和 Fable 5 在 SWE-bench Pro 上激烈競爭的基準類型——Fusion 沒有提供明顯優勢。這類任務在本質上是有狀態的序列任務,不能在多個獨立模型運行中簡潔地並行化。將相同的編程提示詞分發給三個模型並合成它們不同的解決方案提案,更有可能造成混亂而非改善。
強勢信號出現在研究和知識合成類別:需要從多個來源整合真實情況的複雜問題,不同模型對不同領域可能有互補的記憶,而答案的價值隨覆蓋廣度的增加而提升。法律研究、技術文件合成、競爭分析、科學文獻綜述——這些正是 Fusion 所設計的任務。
對開發者的影響
對開發團隊而言,實際的解鎖在於組合策略。在 Fusion 出現之前,構建研究助理的團隊面臨一個強制選擇:為前沿模型品質付出頂級價格,或接受廉價模型的品質折衷。Fusion 引入了第三條路:使用一個中等層級模型的面板,其合計成本低於單一頂級模型,而其多元覆蓋在重要任務上實際上可能超越頂級模型。
這並不消除頂級模型的適用場景。對於需要在單一呼叫中進行深度、連貫、長上下文推理的任務——延伸的編程會話、複雜的文件草擬、精密的多步驟推理——單一前沿模型仍然是正確的工具。但對於自然分解為「廣泛收集資訊,然後合成」的研究密集型任務,Fusion 的面板方式比單一模型存取產生更好的質量與成本比。
這個架構還具有容錯意義。如果面板中的某個模型返回錯誤、下線或產生明顯異常的回覆,裁判可以降低對其的權重,更重地加權其餘回覆。對於可靠性至關重要的生產系統,面板方式對單一模型停機的對沖能力,是直接模型存取所無法提供的。
背景:持續擴大的模型版圖
Fusion 的推出恰逢通過聚合 API 可用的競爭模型數量大幅增長的時刻。在過去十二個月中,開放權重模型的版圖已從少數幾個明顯遜於前沿閉源模型的選項,擴展到包括 GLM-5.2、DeepSeek V4 Pro、Kimi K2.6、MiniMax-M3 等在內的競爭層——每個模型在不同任務類型上都有不同的知識分佈、檢索風格和性能特徵。
當你試圖選擇一個單一模型時,這種多元性看起來像是碎片化;在 Fusion 式的集成中,它卻成了一種資產。模型對一個問題的「視角」差異越大,合成步驟增加的價值就越大。一個五到十個具有顯著不同訓練分佈的競爭性開放權重模型並存的未來,對 Fusion 而言是比模型逐漸收斂於相同合成數據管線產出的世界更好的環境。
對 OpenRouter 而言,Fusion 延伸了其現有的作為模型無關基礎設施層的競爭定位。這家公司的核心價值主張一直是:聚合多個模型提供者的存取,比押注於任何單一提供者創造更多靈活性和更好的經濟效益。Fusion 將這一論點又推進了一步:模型異質性不只是一種對沖策略,更是一種性能優勢——前提是你擁有能夠利用它的合成基礎設施。