OpenAI 發布 GPT-Realtime-2：首個能在對話中即時推理的語音 AI 模型

OpenAI 於 5 月 7 日為其 Realtime API 發布三款新模型——具推理能力的 GPT-Realtime-2（128K 上下文視窗）、即時語音翻譯的 GPT-Realtime-Translate（支援 70 種以上語言），以及串流轉錄的 GPT-Realtime-Whisper。GPT-Realtime-2 是首個基於 GPT-5 等級智能的語音模型，開發者得以打造能在對話中思考複雜問題、無需陟入尷尬沉默的語音 AI 代理。

1 小時前 1 分鐘閱讀

過去兩年，要打造一個能用於正式產品的語音 AI 代理，開發者必須將三個獨立服務拼湊在一起：語音轉文字、推理模型、再轉回語音輸出。結果往往是延遲高、銅接處容易出錯，使用者甚至能感覺到這些「縮走」的存在。 5 月 7 日，OpenAI 發布三款新模型，從根本改變了這個架構——同時也大幅提升了語音介面的能力上限。

這次發布的核心是 GPT-Realtime-2，OpenAI 首款基於 GPT-5 等級智能的語音模型。但整個發布其實是一套三件組：GPT-Realtime-2 主打智能語音互動，GPT-Realtime-Translate 提供即時多語言對話翻譯，GPT-Realtime-Whisper 則提供串流語音轉錄。三款模型即日起均可透過 Realtime API 取用。

GPT-Realtime-2：會思考的語音

GPT-Realtime-2 最核心的能力，是在即時對話中進行推理——這是過去所有語音 AI 模型都沒能做好的事。此前的語音系統，包括 OpenAI 自家舊版 Realtime API 模型，都是以較小、較快、強調降低延遲的模型為基礎。它們能流暢對話、呼叫基本工具，但面對需要多步驟推理、細膚理解指令或長上下文的複雜請求時，往往力不從心。

GPT-Realtime-2 將語音轉語音的處理流程與 GPT-5 等級的推理能力整合進單一模型，從根本改變了這個局面。上下文視窗從 32K 擴展至 128K tokens，讓模型能夠維持更長的對話、回渆會話前段的內容，並處理隨時間累積大量上下文的代理式工作流程。

開發者可設定五個推理強度等級——minimal、low、medium、high、xhigh——讓應用程式根據任務需求在延遲與準確度之間靈活取捨。處理例行查詢的客服機器人或許只需 minimal；解析複雜症狀的醫療問診助理，則可能需要調高至 high 或 xhigh。

兩項新的開發者功能讓推理過程不再是沉默等待。**前置語句（Preambles）**讓模型在呼叫工具前先說出「讓我查一下」或「稍等一下」，消除了過去讓推理代理顯得「當機」的死寂空白。**平行工具呼叫（Parallel tool calls）**讓模型能同時觸發多個後端請求，並以語音告知目前執行進度，例如：「我正在同步查詢您的訂位資訊和目的地天氣。」

這些絕非裝飾性功能。語音使用者體驗研究一致顯示，無法解釋的沉默是導致使用者在語音互動中放棄的首要原因。讓模型的運作過程可聽見，能在推理延遲期間有效維持使用者的參與感。

定價與開發者的經濟帳

GPT-Realtime-2 定價為每百萬音訊輸入 tokens 32 美元、每百萬音訊輸出 tokens 64 美元，快取輸入 tokens 則降至每百萬 0.40 美元——對能夠重復利用對話上下文的應用程式而言，折扣相當可觀。

以參考値來看，一通典型的三分鐘客服電話大約產生 5,000 至 7,000 個音訊 tokens。以完整定價計算（未計快取），每通約需 0.23 至 0.45 美元。對高流量消費者應用而言，這個成本値得態態處理；但對於要取代每小時 20 至 40 美元真人客服的企業應用而言，幾乎在任何 token 用量下都具備可行的商業邏輯。

五個推理等級也讓開發者能夠精細控制成本。以 minimal 推理運行比 xhigh 便宜許多，且多數正式應用會發現 low 或 medium 推理已足以應付 80 至 90% 的查詢需求。

GPT-Realtime-Translate：即時多語言對話

第二款模型 GPT-Realtime-Translate 專為即時語音翻譯而生。它支援超過 70 種語言的語音輸入，並能即時輸出 13 種語言的翻譯語音，跟上說話者的速度，而非等待完整句子結束後才開始翻譯。

實際應用場景相當廣泛。客服中心可將任何語言的來電即時轉換給英語客服人員處理，反之亦然，雙方都無需切換為文字模式或等待人工口譯。服務多語言病患的遠距醫療平台，可直接提供無語言障礙的即時問診。跨境派駐的外勤團隊可將模型作為永久在線的翻譯層，隨時溝通。

GPT-Realtime-Translate 依分鐘計費，而非按 token 計算，對通話時長可預測的應用來說，成本建模更為簡便。

GPT-Realtime-Whisper：串流轉錄

第三款模型 GPT-Realtime-Whisper 针對一個相對聆焦但開發者頻繁提出的需求：逐字即時轉錄，而非等到整句說完才輸出。

過去的即時轉錄方案，讓開發者必須在兩個選項中取捨：低延遲的部分轉錄（但準確率較低，需要後續修正），或高準確度的完整轉錄（但延遲較高，與實際語音感覺脱節）。GPT-Realtime-Whisper 聲稱能打破這個取捨——透過串流輸出 token 機率而非等待句子完成後才確認文字，同時兑現速度與準確度。

同 GPT-Realtime-Translate，GPT-Realtime-Whisper 依分鐘計費。

對整個生態系統的意義

OpenAI 的 Realtime API 自 2024 年 10 月推出以來，在企業開發者中的採用率一直受限於推理能力的展。舊版模型能自然對話，但無法應付讓語音代理在正式環境中真正有用的複雜多輮工作流程。GPT-Realtime-2 是首個填補這個缺口的版本。

時機上，這與更廣泛的市場轉變相吸對應。Microsoft、Google 和 Amazon 都已表明，2026 年將大力投資企業級語音 AI 介面，對開發者心智份額的競爭也日益激烈。OpenAI 選擇同時發布 GPT-Realtime-2 與兩款配套模型（而非單一語音升級），顯示公司正試圖以統一的 API 介面握控語音開發者堆疊的全局——涵蓋智能對話、多語言翻譯和語音轉錄。

對於一直在等待語音 AI 能力足以應付複雜企業工作流程的開發者來說，這週的發布移除了最後一道主要的技術障礎。現在的開放問題不再是模型能力是否足夠強——而是定價與延遲取捨是否能通過各個具體應用場景的門溻。

根據多位企業開發者巡回報導的測試結果，GPT-Realtime-2 在 medium 推理強度下，典型查詢的延遲約在 800 至 1,200 毫秒之間——足以維持自然對話；但 xhigh 推理等級在處理複雜請求時會引入 2 至 4 秒的延遲，在期望即時回應的應用中，需要審慎設計使用者體驗。

這次三款模型的發布，是 OpenAI 語音平台自 2024 年推出以來最重要的演進，預計將加速語音 AI 代理在客戶服務、醫療保健與企業生產力應用中的正式部署——尤其在 2026 年下半年。

資料來源

openai 語音AI gpt-realtime-2 API 開發者工具語音辨識即時翻譯

OpenAI 發布 GPT-Realtime-2：首個能在對話中即時推理的語音 AI 模型

GPT-Realtime-2：會思考的語音

定價與開發者的經濟帳

GPT-Realtime-Translate：即時多語言對話

GPT-Realtime-Whisper：串流轉錄

對整個生態系統的意義

資料來源

相關報導

OpenAI 發布 GPT-5.5：能自主規劃、寫程式、執行任務的新世代 AI

Mistral Medium 3.5 登場：SWE-Bench 達 77.6%，雲端原生編程代理正式推出

OpenAI 加速推出 AI 智慧型手機，聯發科客製晶片搭台積電 N2P 製程，2027 年目標出貨 3,000 萬支