跳至主要內容
FAQ

OpenAI Codex 新功能:只需示範一次,AI 永遠代勞重複任務

OpenAI 在 Codex 應用程式第 26.616 版中推出了「Record & Replay」功能,讓 AI 智能體觀察使用者完成一次工作流程示範後,將其轉換為可隨時調用的可重用「技能」。這項功能向付費 ChatGPT 訂閱者(macOS 平台)開放,歐盟、英國和瑞士用戶除外,代表著無程式碼自動化領域的重要突破,有望縮短企業 RPA 工具與對話式 AI 智能體之間的差距。

1 分鐘閱讀

企業工作流程自動化最大的阻力,從來不是自動化本身——而是向工具描述自動化的過程。機器人流程自動化(RPA)平台花了十年時間要求用戶在機器人執行任務前,記錄每一次點擊、每個欄位值和每個條件分支。結果在紙上看起來強大,在實踐中卻脆弱易斷,且通常需要專門人員來維護。

OpenAI 於 6 月 18 日在 Codex 應用程式第 26.616 版中發布的 Record & Replay 功能採取了不同方式:給智能體看你想做什麼,讓它自己找出方法。

Record & Replay 的運作原理

這個機制在概念上很直接,但在實作層面意義深遠。用戶啟動錄製模式,像往常一樣完成他們的工作流程——開啟應用程式、輸入資料、瀏覽介面、提交表單——同時 Codex 在一旁觀察。當用戶停止錄製後,Codex 分析動作序列,識別底層意圖和模式,並將示範轉換為可重用的「技能」。

此後任何時候都可以按名稱呼叫該技能,由 Codex 智能體透過電腦使用(Computer Use)、瀏覽器自動化、插件 API 或任何可用工具的組合來執行工作流程。每次被呼叫時,工作流程都會自主運行——無需重新示範。

OpenAI 的文件說明技能在創建後可以編輯:用戶可以修改生成的自動化邏輯、添加條件分支、將輸入參數化(這樣同一個技能就能根據上下文處理不同的檔案或填寫不同的表單),並將多個技能組合成更大的自動化管線。

電腦使用作為基礎設施層

Record & Replay 建構在電腦使用(Computer Use)之上——這是 OpenAI 用於讓智能體像人類用戶一樣與電腦介面互動(而非透過 API)的框架。電腦使用讓 Codex 能夠以與人類用戶相同的方式控制鍵盤、滑鼠和螢幕,從而實現對沒有可程式化介面的應用程式的自動化。

這正是 Record & Replay 與早期需要 Web 應用程式 API 或專用整合的工作流程自動化工具的區別所在。任何用戶可以視覺化互動的應用程式——遺留的內部工具、政府入口網站、從未為自動化設計的桌面應用程式——都可以透過示範模型實現腳本化。智能體不需要 API 端點;它只需要看到工作流程被執行一次。

Record & Replay 運作所需的電腦使用功能,意味著這項功能只在已部署電腦使用的平台上可用。從第 26.616 版開始,這包括 macOS;Windows 或 Web 存取的版本尚不支援此功能。OpenAI 指出,電腦使用自 6 月 16 日起在歐盟地區開放——這是一個必要的前提步驟——但 Record & Replay 本身在歐盟、英國和瑞士,依然受 Codex 資料處理條款的地理限制而無法使用。

RPA 的對比——以及差異所在

企業 RPA 工具——UiPath、Automation Anywhere、Blue Prism、Microsoft Power Automate——在這個領域已深耕多年,對比頗具啟發性。這些平台也提供「錄製」模式,讓用戶執行任務後工具生成機器人定義。根本的區別在於錄製和執行之間發生了什麼。

傳統 RPA 錄製的是字面意義上的螢幕座標、元素識別符和像素位置。更改瀏覽器視窗大小、更新應用程式的 UI,或移動一個按鈕,機器人就會崩潰。RPA 工作流程的維護對企業 IT 團隊而言是重大的持續成本;業界分析師估計,企業 RPA 投資中有相當大的比例用於維護和除錯現有自動化,而非創建新的。

Codex 的 Record & Replay 從示範工作流程的語義理解中生成技能,而非捕獲脆弱的座標。智能體觀察用戶試圖完成什麼——上傳帶有元數據的影片、提交費用報告、建立專案工單——並將該意圖編碼為一種能夠適應介面輕微變化而不會崩潰的形式。OpenAI 尚未公布這種自適應執行的技術規格,但與基於座標的 RPA 的區別,對企業可靠性預期而言意義重大。

實際應用場景

OpenAI 的文件和示範重點介紹了幾個代表性使用案例:

內容發布。 錄製 YouTube 影片上傳工作流程——包括標題、描述、縮圖選擇、標籤輸入和隱私設定——並將其轉換為一個技能,在後續上傳不同參數的影片時自動執行。

費用管理。 捕獲在企業入口網站中提交費用報告的過程,並將其轉換為可重複的技能,以便在新費用到來時自動處理。

定期資料擷取。 示範如何從內部儀表板下載每週報告並保存到指定位置,然後讓技能按排程自動執行。

工單和問題建立。 逐步示範正確配置的 Jira、Linear 或 GitHub 問題建立流程,包含特定欄位值和標籤,然後生成一個能夠從自然語言描述建立正確配置問題的技能。

預訂和訂位。 捕獲企業設施應用程式中的停車位預訂工作流程,並將其轉換為可重複執行的任務。

統一的主題是 OpenAI 所描述的「比描述更容易展示的穩定、可重複工作流程」。這是對當前智能體編排中真實局限性的務實承認:精確的自然語言描述複雜的多步驟工作流程,往往比直接做這件事更難,而且描述常常無法捕捉讓自動化正確運行所需的邊緣情況和序列依賴關係。

地理限制與競爭格局

歐盟、英國和瑞士對 Record & Replay 的排除,反映了 OpenAI 智能體功能與歐洲資料保護框架之間持續存在的張力。電腦使用涉及捕獲螢幕內容,其中可能包含個人資料、用戶憑證和專有資訊。GDPR 對自動化決策和資料最小化的要求,為 OpenAI 在這些司法管轄區部署智能體電腦使用產品設置了尚未完全解決的限制。

這造成了一種市場分化:歐洲的企業團隊缺乏其美國同行所能獲得的相同自動化能力——隨著 OpenAI、Anthropic 和 Google 部署越來越強大的智能體功能並劃出地理豁免,這一動態已多次浮現。

工作流程自動化的競爭格局非常活躍。Microsoft 的 Power Automate 已整合 Copilot 功能,支援自然語言工作流程建立。Anthropic 的 Claude 透過電腦使用支援類似的桌面自動化能力。Zapier 和 Make 已添加 AI 驅動的工作流程建構器。OpenAI 的 Record & Replay 所增加的、大多數競爭對手所缺乏的,是基於示範的方式:與其用自然語言描述工作流程(要求用戶抽象地思考自己的流程),或在視覺化建構器中配置工作流程(需要明確列舉步驟),Record & Replay 讓用戶保持在實際執行任務的流程中,由 AI 來處理抽象化步驟。

對開發者工作流程的意義

對開發者而言,Record & Replay 為那些抵制 API 整合的工具鏈打開了自動化路徑:內部遺留系統、沒有公開 API 的第三方 SaaS 平台、只支援人工瀏覽器存取的合規與監管入口網站,以及建立在桌面框架上的專有企業應用程式。

示範一次工作流程就能讓它成為可重用的智能體技能,也改變了以往不值得投資撰寫腳本的一次性自動化的計算邏輯。如果自動化的成本是一次示範而非數小時的腳本撰寫和測試,值得自動化的門檻就大幅降低——這有望從根本上改變開發者和知識工作者思考整類重複性電腦輔助工作的方式。

OpenAI 已表示,Record & Replay 技能將可在整個 Codex 生態系中存取,包括透過 API 用於企業整合。在 Codex API 基礎上開發的團隊,有可能從人類主題專家身上捕獲特定領域的工作流程,並將其作為可重用技能在整個組織中部署——如果這一能力能夠大規模可靠運作,代表著制度性知識被編碼進軟體系統方式的一次重大加速。

OpenAI Codex 工作流程自動化 AI 智能體 開發者工具 電腦使用 RPA 無程式碼
分享

相關報導

OpenAI Codex Sites:用一句話描述,任何員工都能部署一個上線的網頁應用

OpenAI 在 6 月 2 日發布 Codex Sites,讓任何人只需以自然語言描述需求,Codex 即可自動建構、部署並托管一個可分享的網址應用——完全不需要工程師介入。搭配新推出的六款職能角色外掛(銷售、行銷、財務、人資、產品、營運),此次更新標誌著 OpenAI 正將 Codex 從工程師工具,打造為全企業知識工作者的 AI 作業平台。

1 分鐘閱讀