OpenAI GPT-5.4電腦操控能力超越人類基準，重新定義AI代理的邊界

OpenAI於3月5日發布的GPT-5.4，是首款在電腦使用基準測試中超越人類表現的通用AI模型，在OSWorld-Verified上達到75%成功率，超過人類基準的72.4%。搭配百萬token上下文視窗與原生滑鼠、鍵盤、截圖互動支援，GPT-5.4標誌著自主AI代理在企業與開發者工作流程中的歷史轉折點。

2026年4月10日 1 分鐘閱讀

臨界點已至：AI操控電腦的能力首度超越多數人類

OpenAI於3月5日發布GPT-5.4時，發布公告中最重要的數字，既不是數學推理排行榜的分數，也不是程式碼生成測試的成績，而是75.0%——這是GPT-5.4在OSWorld-Verified上的任務完成率，一個測量AI系統能否完成真實桌面電腦操作任務的基準。人類在同一基準上的基準線是72.4%。

有史以來，通用型AI模型在操控電腦這件事上，首度比一般人類更可靠。

這不是某項冷僻能力的邊際改善，而是一道研究人員與實務工作者預期多年的門檻——其背後的意涵，將深刻影響軟體開發的方式、企業工作流程的自動化，以及從事電腦密集型知識工作的人力價值。

GPT-5.4究竟能做什麼

GPT-5.4是OpenAI旗艦系列中，首款原生搭載「電腦使用」（computer use）能力的模型。它操控電腦的方式，不是透過專用API或客製化整合，而是像人類一樣：透過截圖觀察螢幕畫面，移動虛擬游標，點擊介面元素，輸入文字，在不同應用程式之間切換導航。

這種「以截圖為基礎的電腦使用」方式，比API自動化具有更強的通用性。API整合只能對外開放結構化端點的軟體發揮作用；電腦使用則適用於任何有視覺介面的軟體——也就是說，幾乎涵蓋知識工作者每天碰觸的所有工具。

根據OpenAI公布的數據，GPT-5.4達到以下成績：

OSWorld-Verified：75.0%（人類基準：72.4%；GPT-5.2：47.3%）
WebArena-Verified：67.3%（測試自主瀏覽器導航能力）
Online-Mind2Web：92.8%（僅憑截圖觀察進行瀏覽器操作）

從GPT-5.2的47.3%到GPT-5.4的75.0%，四個月內進步了28個百分點。這樣的能力提升速度，讓逐年比較幾乎顯得過時。就在2025年初，最好的AI系統還有約70%的基礎桌面任務以失敗告終；如今最佳模型的失敗率已降至約25%。

躍進背後的架構因素

OpenAI對GPT-5.4電腦使用能力提升的具體架構改動相對低調，但幾個關鍵因素從模型行為與基準測試結果中清晰可見。

GPT-5.4配備了百萬token上下文視窗——與Google Gemini 3.1 Pro及Anthropic Claude Opus 4.6並駕齊驅——這對電腦使用至關重要。跨多個應用程式導航複雜工作流程，會產生大量上下文：截圖、DOM快照、操作歷史、規劃軌跡。上下文視窗過小，模型就被迫丟棄在後續步驟中可能仍需用到的資訊。百萬token的視窗，讓GPT-5.4能夠同時保留相當於一整個工作日的上下文。

模型訓練中也採用了大幅擴充的電腦互動數據。OpenAI內部的「Atlas」代理基礎設施——用於生成訓練電腦使用模型所需的合成示範——已在規模上運行超過一年，累積了橫跨作業系統、瀏覽器、生產力套件和開發者工具的海量成功任務完成案例。這一訓練數據優勢，很可能是基準測試大幅進步最主要的驅動因素，而非某項架構上的創新。

此外，GPT-5.4比GPT-5.2減少33%的單一陳述事實錯誤率，整體回應錯誤率降低18%。對電腦使用代理而言，事實準確性至關重要——一個幻覺出來的檔案路徑或錯誤填入的表單欄位，可能讓任務在數步之後一路失敗。

模型家族：Thinking、Pro、Mini與Nano

GPT-5.4最初以兩種形態推出：GPT-5.4 Thinking（完整推理模型，適用於複雜多步驟任務）與GPT-5.4 Pro（旗艦版本，針對速度與能力的平衡進行優化）。3月17日，OpenAI又推出GPT-5.4 mini與GPT-5.4 nano。

GPT-5.4 mini向ChatGPT免費用戶開放，專為高頻、低延遲應用場景而設計。GPT-5.4 nano——最小的版本——僅透過OpenAI API提供，定價為每百萬輸入token 2.5美元，鎖定需要大量進行快速、低成本調用的開發者。

分層的模型家族對電腦使用的商業化尤為關鍵。複雜的多小時電腦任務，可從Thinking版本的延伸推理鏈中獲益；而許多電腦使用場景——填寫表單、從網站擷取數據、安排會議——已足夠簡單，讓GPT-5.4 mini得以以極低成本完成，使大規模自主部署在經濟上變得可行。

原生財務外掛與企業整合

除核心電腦使用能力外，GPT-5.4還原生整合了Microsoft Excel與Google Sheets的財務外掛——這一產品決策揭示了OpenAI認為近期企業價值最集中的領域。財務分析師、會計師、營運團隊與數據科學家，將工作時間中相當大的比例耗費在試算表軟體上。一個能自主導航、操控並生成複雜試算表內容的模型，對財星500大企業的生產力提升是立即可見的。

OpenAI也深化了與微軟Copilot生態系的整合，GPT-5.4的電腦使用能力可直接在Microsoft 365應用程式中調用。這使GPT-5.4成為微軟企業AI策略的認知層核心——一段已為OpenAI帶來數十億美元收入的合作關係，且方興未艾。

競爭格局

GPT-5.4的電腦使用表現，是一場愈來愈激烈的產品類別競爭中的重要一招。Anthropic的Claude Opus 4.6在LMSYS Chatbot Arena綜合Elo排行榜上位居首位，但GPT-5.4在電腦使用上的領先是實質性的：Claude的電腦使用實作雖有能力，但OSWorld成績尚未與GPT-5.4比肩。

Google的Project Mariner——建立在Gemini 3.1 Pro之上——是自主瀏覽器使用領域另一個強勁競爭者，其WebArena表現與GPT-5.4互有高下。三大實驗室圍繞電腦使用基準的競爭，預計在2026年持續升溫，各家都在爭相推出下一代更新。

讓GPT-5.4競爭地位特別穩固的，是電腦使用能力與百萬token上下文視窗、nano低價版本的組合。這一組合——以接近零成本的單次任務價格完成長上下文、多步驟任務——正是企業自動化採購方等待已久的答案。

對知識工作的影響

OSWorld人類基準線的跨越，是一個既具象徵意義、又具實際意義的里程碑。從實際層面看，這意味著在一大類常見的桌面任務上——瀏覽檔案系統、填寫網路表單、操作生產力軟體、從網站蒐集數據——提示詞得當的GPT-5.4代理，在執行同一任務時，已比一般人類員工更為可靠。

這並不意味著AI代理會立即大規模取代知識工作者。電腦使用在高度可變的全新任務環境中仍不穩定；代理在需要細緻判斷、人際情境或超越既有模式的創造力任務上仍會失敗；在企業中大規模部署自主代理，也帶來了尚未完全解決的安全性、合規性與可稽核性問題。

但趨勢已無可置疑：四個月內從47.3%到75.0%。曲線陡峭，方向明確，企業重組以電腦為中心的知識工作方式的意涵，正從理論層面快速走向迫切現實。

代理時代正式開啟

觀察者指出，GPT-5.4是OpenAI首款在理論上能夠執行標準軟體工程師待辦清單中許多任務的模型——運行測試、提交錯誤報告、更新文件、導航CI/CD儀表板——而不需要人類對每個步驟逐一監督。

這一描述捕捉到了某種關鍵的東西。關於AI與知識工作的討論，往往停留在「AI將改變工作」這樣籠統的層次，缺乏具體說明改變的是哪些工作、哪些任務、以及在什麼時間軸上。GPT-5.4的電腦使用表現提供了這份具體性。

最先被納入自動化範疇的任務，不是大多數知識工作的核心——那些需要創意、複雜判斷和人際關係的工作；而是那些消耗知識工作者20%至40%工作時間的高頻、規則明確、介面導航型任務。

高效、可靠、低成本地自動化這一部分，不是微不足道的生產力提升，而是知識工作經濟學的結構性轉變——根據OSWorld的數據，我們剛剛越過了讓這一切成為現實的性能門檻。

資料來源

OpenAI GPT-5.4 電腦使用 AI代理基準測試代理式AI