跳至主要內容
FAQ

OpenAI 發布 GPT-Realtime-2:首個能在對話中即時推理的語音 AI 模型

OpenAI 於 5 月 7 日為其 Realtime API 發布三款新模型——具推理能力的 GPT-Realtime-2(128K 上下文視窗)、即時語音翻譯的 GPT-Realtime-Translate(支援 70 種以上語言),以及串流轉錄的 GPT-Realtime-Whisper。GPT-Realtime-2 是首個基於 GPT-5 等級智能的語音模型,開發者得以打造能在對話中思考複雜問題、無需陟入尷尬沉默的語音 AI 代理。

1 分鐘閱讀

過去兩年,要打造一個能用於正式產品的語音 AI 代理,開發者必須將三個獨立服務拼湊在一起:語音轉文字、推理模型、再轉回語音輸出。結果往往是延遲高、銅接處容易出錯,使用者甚至能感覺到這些「縮走」的存在。 5 月 7 日,OpenAI 發布三款新模型,從根本改變了這個架構——同時也大幅提升了語音介面的能力上限。

這次發布的核心是 GPT-Realtime-2,OpenAI 首款基於 GPT-5 等級智能的語音模型。但整個發布其實是一套三件組:GPT-Realtime-2 主打智能語音互動,GPT-Realtime-Translate 提供即時多語言對話翻譯,GPT-Realtime-Whisper 則提供串流語音轉錄。三款模型即日起均可透過 Realtime API 取用。

GPT-Realtime-2:會思考的語音

GPT-Realtime-2 最核心的能力,是在即時對話中進行推理——這是過去所有語音 AI 模型都沒能做好的事。此前的語音系統,包括 OpenAI 自家舊版 Realtime API 模型,都是以較小、較快、強調降低延遲的模型為基礎。它們能流暢對話、呼叫基本工具,但面對需要多步驟推理、細膚理解指令或長上下文的複雜請求時,往往力不從心。

GPT-Realtime-2 將語音轉語音的處理流程與 GPT-5 等級的推理能力整合進單一模型,從根本改變了這個局面。上下文視窗從 32K 擴展至 128K tokens,讓模型能夠維持更長的對話、回渆會話前段的內容,並處理隨時間累積大量上下文的代理式工作流程。

開發者可設定五個推理強度等級——minimal、low、medium、high、xhigh——讓應用程式根據任務需求在延遲與準確度之間靈活取捨。處理例行查詢的客服機器人或許只需 minimal;解析複雜症狀的醫療問診助理,則可能需要調高至 high 或 xhigh。

兩項新的開發者功能讓推理過程不再是沉默等待。**前置語句(Preambles)**讓模型在呼叫工具前先說出「讓我查一下」或「稍等一下」,消除了過去讓推理代理顯得「當機」的死寂空白。**平行工具呼叫(Parallel tool calls)**讓模型能同時觸發多個後端請求,並以語音告知目前執行進度,例如:「我正在同步查詢您的訂位資訊和目的地天氣。」

這些絕非裝飾性功能。語音使用者體驗研究一致顯示,無法解釋的沉默是導致使用者在語音互動中放棄的首要原因。讓模型的運作過程可聽見,能在推理延遲期間有效維持使用者的參與感。

定價與開發者的經濟帳

GPT-Realtime-2 定價為每百萬音訊輸入 tokens 32 美元、每百萬音訊輸出 tokens 64 美元,快取輸入 tokens 則降至每百萬 0.40 美元——對能夠重復利用對話上下文的應用程式而言,折扣相當可觀。

以參考値來看,一通典型的三分鐘客服電話大約產生 5,000 至 7,000 個音訊 tokens。以完整定價計算(未計快取),每通約需 0.23 至 0.45 美元。對高流量消費者應用而言,這個成本値得態態處理;但對於要取代每小時 20 至 40 美元真人客服的企業應用而言,幾乎在任何 token 用量下都具備可行的商業邏輯。

五個推理等級也讓開發者能夠精細控制成本。以 minimal 推理運行比 xhigh 便宜許多,且多數正式應用會發現 low 或 medium 推理已足以應付 80 至 90% 的查詢需求。

GPT-Realtime-Translate:即時多語言對話

第二款模型 GPT-Realtime-Translate 專為即時語音翻譯而生。它支援超過 70 種語言的語音輸入,並能即時輸出 13 種語言的翻譯語音,跟上說話者的速度,而非等待完整句子結束後才開始翻譯。

實際應用場景相當廣泛。客服中心可將任何語言的來電即時轉換給英語客服人員處理,反之亦然,雙方都無需切換為文字模式或等待人工口譯。服務多語言病患的遠距醫療平台,可直接提供無語言障礙的即時問診。跨境派駐的外勤團隊可將模型作為永久在線的翻譯層,隨時溝通。

GPT-Realtime-Translate 依分鐘計費,而非按 token 計算,對通話時長可預測的應用來說,成本建模更為簡便。

GPT-Realtime-Whisper:串流轉錄

第三款模型 GPT-Realtime-Whisper 针對一個相對聆焦但開發者頻繁提出的需求:逐字即時轉錄,而非等到整句說完才輸出。

過去的即時轉錄方案,讓開發者必須在兩個選項中取捨:低延遲的部分轉錄(但準確率較低,需要後續修正),或高準確度的完整轉錄(但延遲較高,與實際語音感覺脱節)。GPT-Realtime-Whisper 聲稱能打破這個取捨——透過串流輸出 token 機率而非等待句子完成後才確認文字,同時兑現速度與準確度。

同 GPT-Realtime-Translate,GPT-Realtime-Whisper 依分鐘計費。

對整個生態系統的意義

OpenAI 的 Realtime API 自 2024 年 10 月推出以來,在企業開發者中的採用率一直受限於推理能力的展。舊版模型能自然對話,但無法應付讓語音代理在正式環境中真正有用的複雜多輮工作流程。GPT-Realtime-2 是首個填補這個缺口的版本。

時機上,這與更廣泛的市場轉變相吸對應。Microsoft、Google 和 Amazon 都已表明,2026 年將大力投資企業級語音 AI 介面,對開發者心智份額的競爭也日益激烈。OpenAI 選擇同時發布 GPT-Realtime-2 與兩款配套模型(而非單一語音升級),顯示公司正試圖以統一的 API 介面握控語音開發者堆疊的全局——涵蓋智能對話、多語言翻譯和語音轉錄。

對於一直在等待語音 AI 能力足以應付複雜企業工作流程的開發者來說,這週的發布移除了最後一道主要的技術障礎。現在的開放問題不再是模型能力是否足夠強——而是定價與延遲取捨是否能通過各個具體應用場景的門溻。

根據多位企業開發者巡回報導的測試結果,GPT-Realtime-2 在 medium 推理強度下,典型查詢的延遲約在 800 至 1,200 毫秒之間——足以維持自然對話;但 xhigh 推理等級在處理複雜請求時會引入 2 至 4 秒的延遲,在期望即時回應的應用中,需要審慎設計使用者體驗。

這次三款模型的發布,是 OpenAI 語音平台自 2024 年推出以來最重要的演進,預計將加速語音 AI 代理在客戶服務、醫療保健與企業生產力應用中的正式部署——尤其在 2026 年下半年。

openai 語音AI gpt-realtime-2 API 開發者工具 語音辨識 即時翻譯
分享

相關報導

OpenAI 加速推出 AI 智慧型手機,聯發科客製晶片搭台積電 N2P 製程,2027 年目標出貨 3,000 萬支

知名供應鏈分析師郭明錤報告指出,OpenAI 已將首款 AI 代理手機的量產時程提前至 2027 年上半年,處理器核心採用搭載台積電 N2P 製程的聯發科 Dimensity 9600 客製版本。同步確認的還有 Jony Ive 主導設計的首款 OpenAI 硬體——一台沒有螢幕的智慧型攝影機喇叭,預計於 2027 年初發布。2027 至 2028 年合計出貨量目標達 3,000 萬支,OpenAI 寄望硬體布局成為其上市前的重要敘事支柱。

1 分鐘閱讀