跳至主要內容
FAQ

OpenAI GPT-5.4電腦操控能力超越人類基準,重新定義AI代理的邊界

OpenAI於3月5日發布的GPT-5.4,是首款在電腦使用基準測試中超越人類表現的通用AI模型,在OSWorld-Verified上達到75%成功率,超過人類基準的72.4%。搭配百萬token上下文視窗與原生滑鼠、鍵盤、截圖互動支援,GPT-5.4標誌著自主AI代理在企業與開發者工作流程中的歷史轉折點。

1 分鐘閱讀

臨界點已至:AI操控電腦的能力首度超越多數人類

OpenAI於3月5日發布GPT-5.4時,發布公告中最重要的數字,既不是數學推理排行榜的分數,也不是程式碼生成測試的成績,而是75.0%——這是GPT-5.4在OSWorld-Verified上的任務完成率,一個測量AI系統能否完成真實桌面電腦操作任務的基準。人類在同一基準上的基準線是72.4%。

有史以來,通用型AI模型在操控電腦這件事上,首度比一般人類更可靠。

這不是某項冷僻能力的邊際改善,而是一道研究人員與實務工作者預期多年的門檻——其背後的意涵,將深刻影響軟體開發的方式、企業工作流程的自動化,以及從事電腦密集型知識工作的人力價值。

GPT-5.4究竟能做什麼

GPT-5.4是OpenAI旗艦系列中,首款原生搭載「電腦使用」(computer use)能力的模型。它操控電腦的方式,不是透過專用API或客製化整合,而是像人類一樣:透過截圖觀察螢幕畫面,移動虛擬游標,點擊介面元素,輸入文字,在不同應用程式之間切換導航。

這種「以截圖為基礎的電腦使用」方式,比API自動化具有更強的通用性。API整合只能對外開放結構化端點的軟體發揮作用;電腦使用則適用於任何有視覺介面的軟體——也就是說,幾乎涵蓋知識工作者每天碰觸的所有工具。

根據OpenAI公布的數據,GPT-5.4達到以下成績:

  • OSWorld-Verified:75.0%(人類基準:72.4%;GPT-5.2:47.3%)
  • WebArena-Verified:67.3%(測試自主瀏覽器導航能力)
  • Online-Mind2Web:92.8%(僅憑截圖觀察進行瀏覽器操作)

從GPT-5.2的47.3%到GPT-5.4的75.0%,四個月內進步了28個百分點。這樣的能力提升速度,讓逐年比較幾乎顯得過時。就在2025年初,最好的AI系統還有約70%的基礎桌面任務以失敗告終;如今最佳模型的失敗率已降至約25%。

躍進背後的架構因素

OpenAI對GPT-5.4電腦使用能力提升的具體架構改動相對低調,但幾個關鍵因素從模型行為與基準測試結果中清晰可見。

GPT-5.4配備了百萬token上下文視窗——與Google Gemini 3.1 Pro及Anthropic Claude Opus 4.6並駕齊驅——這對電腦使用至關重要。跨多個應用程式導航複雜工作流程,會產生大量上下文:截圖、DOM快照、操作歷史、規劃軌跡。上下文視窗過小,模型就被迫丟棄在後續步驟中可能仍需用到的資訊。百萬token的視窗,讓GPT-5.4能夠同時保留相當於一整個工作日的上下文。

模型訓練中也採用了大幅擴充的電腦互動數據。OpenAI內部的「Atlas」代理基礎設施——用於生成訓練電腦使用模型所需的合成示範——已在規模上運行超過一年,累積了橫跨作業系統、瀏覽器、生產力套件和開發者工具的海量成功任務完成案例。這一訓練數據優勢,很可能是基準測試大幅進步最主要的驅動因素,而非某項架構上的創新。

此外,GPT-5.4比GPT-5.2減少33%的單一陳述事實錯誤率整體回應錯誤率降低18%。對電腦使用代理而言,事實準確性至關重要——一個幻覺出來的檔案路徑或錯誤填入的表單欄位,可能讓任務在數步之後一路失敗。

模型家族:Thinking、Pro、Mini與Nano

GPT-5.4最初以兩種形態推出:GPT-5.4 Thinking(完整推理模型,適用於複雜多步驟任務)與GPT-5.4 Pro(旗艦版本,針對速度與能力的平衡進行優化)。3月17日,OpenAI又推出GPT-5.4 miniGPT-5.4 nano

GPT-5.4 mini向ChatGPT免費用戶開放,專為高頻、低延遲應用場景而設計。GPT-5.4 nano——最小的版本——僅透過OpenAI API提供,定價為每百萬輸入token 2.5美元,鎖定需要大量進行快速、低成本調用的開發者。

分層的模型家族對電腦使用的商業化尤為關鍵。複雜的多小時電腦任務,可從Thinking版本的延伸推理鏈中獲益;而許多電腦使用場景——填寫表單、從網站擷取數據、安排會議——已足夠簡單,讓GPT-5.4 mini得以以極低成本完成,使大規模自主部署在經濟上變得可行。

原生財務外掛與企業整合

除核心電腦使用能力外,GPT-5.4還原生整合了Microsoft ExcelGoogle Sheets的財務外掛——這一產品決策揭示了OpenAI認為近期企業價值最集中的領域。財務分析師、會計師、營運團隊與數據科學家,將工作時間中相當大的比例耗費在試算表軟體上。一個能自主導航、操控並生成複雜試算表內容的模型,對財星500大企業的生產力提升是立即可見的。

OpenAI也深化了與微軟Copilot生態系的整合,GPT-5.4的電腦使用能力可直接在Microsoft 365應用程式中調用。這使GPT-5.4成為微軟企業AI策略的認知層核心——一段已為OpenAI帶來數十億美元收入的合作關係,且方興未艾。

競爭格局

GPT-5.4的電腦使用表現,是一場愈來愈激烈的產品類別競爭中的重要一招。Anthropic的Claude Opus 4.6在LMSYS Chatbot Arena綜合Elo排行榜上位居首位,但GPT-5.4在電腦使用上的領先是實質性的:Claude的電腦使用實作雖有能力,但OSWorld成績尚未與GPT-5.4比肩。

Google的Project Mariner——建立在Gemini 3.1 Pro之上——是自主瀏覽器使用領域另一個強勁競爭者,其WebArena表現與GPT-5.4互有高下。三大實驗室圍繞電腦使用基準的競爭,預計在2026年持續升溫,各家都在爭相推出下一代更新。

讓GPT-5.4競爭地位特別穩固的,是電腦使用能力與百萬token上下文視窗、nano低價版本的組合。這一組合——以接近零成本的單次任務價格完成長上下文、多步驟任務——正是企業自動化採購方等待已久的答案。

對知識工作的影響

OSWorld人類基準線的跨越,是一個既具象徵意義、又具實際意義的里程碑。從實際層面看,這意味著在一大類常見的桌面任務上——瀏覽檔案系統、填寫網路表單、操作生產力軟體、從網站蒐集數據——提示詞得當的GPT-5.4代理,在執行同一任務時,已比一般人類員工更為可靠。

這並不意味著AI代理會立即大規模取代知識工作者。電腦使用在高度可變的全新任務環境中仍不穩定;代理在需要細緻判斷、人際情境或超越既有模式的創造力任務上仍會失敗;在企業中大規模部署自主代理,也帶來了尚未完全解決的安全性、合規性與可稽核性問題。

但趨勢已無可置疑:四個月內從47.3%到75.0%。曲線陡峭,方向明確,企業重組以電腦為中心的知識工作方式的意涵,正從理論層面快速走向迫切現實。

代理時代正式開啟

觀察者指出,GPT-5.4是OpenAI首款在理論上能夠執行標準軟體工程師待辦清單中許多任務的模型——運行測試、提交錯誤報告、更新文件、導航CI/CD儀表板——而不需要人類對每個步驟逐一監督。

這一描述捕捉到了某種關鍵的東西。關於AI與知識工作的討論,往往停留在「AI將改變工作」這樣籠統的層次,缺乏具體說明改變的是哪些工作、哪些任務、以及在什麼時間軸上。GPT-5.4的電腦使用表現提供了這份具體性。

最先被納入自動化範疇的任務,不是大多數知識工作的核心——那些需要創意、複雜判斷和人際關係的工作;而是那些消耗知識工作者20%至40%工作時間的高頻、規則明確、介面導航型任務。

高效、可靠、低成本地自動化這一部分,不是微不足道的生產力提升,而是知識工作經濟學的結構性轉變——根據OSWorld的數據,我們剛剛越過了讓這一切成為現實的性能門檻。

OpenAI GPT-5.4 電腦使用 AI代理 基準測試 代理式AI
分享

相關報導