OpenAI 即時語音 API 正式上線:GPT-5 級推理能力直接進入語音互動
OpenAI 推出三款全新即時音訊模型——GPT-Realtime-2、GPT-Realtime-Translate 與 GPT-Realtime-Whisper,並同步宣布 Realtime API 從測試版升級為正式量產版本。新模型將 GPT-5 等級的推理能力帶入即時語音互動,並提供支援 70 種以上語言的同步翻譯,以及延遲低於 100ms 的即時語音轉文字功能。
AI 語音互動長期受制於一個根本性的架構問題:負責語言理解的模型與負責語音處理的模型彼此分離,兩者在即時通話過程中都無法進行深度推理。當 OpenAI 推出三款全新即時音訊模型,並同步宣布 Realtime API 進入正式量產(GA)時,一口氣補上了這個缺口——讓語音代理擁有與文字版 GPT-5 同等的推理能力。
這次發布雖在五月公告,但其對開發者社群的影響至今仍持續擴散,標誌著語音優先 AI 產品的真正轉折點。
三款模型,三種職責分工
OpenAI 將這次發布設計為明確的職能分工,推出三款各司其職的專用模型:
GPT-Realtime-2 是三者中的旗艦,也是 OpenAI 首款將 GPT-5 級推理能力整合進語音模型的產品。它負責處理即時語音互動中那些不只需要「回答」、更需要「思考」的複雜請求——在通話過程中呼叫外部工具、應對中途打斷、在長時間對話中維持連貫的上下文脈絡。實際上,這意味著以 GPT-Realtime-2 為基礎打造的語音客服代理,能夠處理原本需要轉接人工客服的多步驟複雜問題。
這款模型與前代最關鍵的架構差異在於工具呼叫的設計。早期即時模型在呼叫外部系統時會引發明顯的延遲峰值,導致語音互動出現讓人不適的停頓感。GPT-Realtime-2 重新設計了非同步工具呼叫機制,讓模型在等待外部系統回應的同時繼續維持對話,消除了企業工作流程中那些令人一直詬病的「AI 思考停頓」。
GPT-Realtime-Translate 是專為即時翻譯設計的模型,支援 70 種以上的輸入語言即時翻譯成 13 種輸出語言,翻譯速度能跟上自然語速。應用場景明確:多語言會議中,每位與會者以自己的母語發言,同時聽到對方語言的即時翻譯,幾乎感受不到延遲。
70 種輸入對 13 種輸出的不對稱設計是刻意為之的。理解 70 種輸入語言需要廣泛的聲學與語言學涵蓋;生成 13 種輸出語言則需要更深的語音合成品質。OpenAI 選擇以高品質輸出優先,覆蓋全球企業溝通最主要的語言組合,而非在兩個維度上各打折扣。
GPT-Realtime-Whisper 是一款串流語音轉文字模型,延遲低於 100ms。有別於批次轉錄(等待完整音訊段落說完再處理)的方式,GPT-Realtime-Whisper 在說話者開口的同時就開始輸出文字,讓產品呈現出「與人同步」而非「追趕人語」的即時感受。
「GA 正式上線」的意義不亞於新模型本身
同步升級為正式量產版本的決定,在重要性上幾乎不亞於模型本身的升級。Realtime API 自 2024 年底開放測試至今,開發者雖可使用,但 OpenAI 並未提供正式的服務水準協議(SLA)保障,無論是運作時間、延遲表現或定價穩定性皆然。
GA 狀態改變了企業採購的計算方式。當一家大型企業評估是否在每天處理五萬通客服電話的聯絡中心中導入即時語音 AI 時,合約上出現「測試版」三個字就是談判破局的因素。正式量產的 SLA 保障,解鎖了此前根本不在考慮範圍內的一整個企業部署類別。
OpenAI 瞄準的市場在哪裡
語音 AI 市場長期存在兩個極端:一端是面向消費者的語音助理(Siri、Alexa、Google Assistant),擅長簡單指令但遇到複雜問題就崩潰;另一端是企業電話語音解決方案(NICE、Nuance、Verint),功能健全但動輒需要數十萬美元的導入成本與數月的部署週期。
GPT-Realtime-2 正好瞄準了兩者之間的空白地帶:需要以網路速度和成本處理真正複雜互動的面向客戶語音應用。目標市場橫跨客戶服務、醫療預約、金融服務、教育輔導、房地產與人力資源——凡是高通話量與非平凡決策同時存在的場景。
翻譯模型則開啟了另一個垂直市場:國際商業溝通。跨國公司目前若要消弭語言障礙,要嘛支付口譯員費用,要嘛接受書面翻譯的摩擦成本,而現在他們擁有了一個按分鐘計費的 API 原生替代方案。
競爭格局
OpenAI 此舉加劇了一個本已快速演進的市場競爭。Google 隨 Gemini 3.5 Flash 推出的 Live API,支援影片與音訊的同步即時多模態處理——這是 OpenAI 模型目前尚未實現的能力。亞馬遜的 Transcribe 即時語音轉文字服務與 AWS 對話式 AI 方案,則早已深度嵌入企業電話語音技術棧中。
GPT-Realtime-2 最清晰的差異化優勢在於推理深度。在即時語音通話過程中呼叫工具、處理多步驟工作流程、維持複雜上下文——這是目前其他競爭對手在相近延遲水準下無法匹配的能力。這個優勢可能隨著競爭對手的快速迭代而收窄,但目前確實構成有意義的護城河。
開發者須知
三款模型的定價在發布時未被顯著揭露,延續 OpenAI 近期將 token 或分鐘計費方案另行公布於 API 文件的慣例。正在建構量產系統的開發者應查閱最新 API 參考文件確認費率,尤其是 GPT-Realtime-Translate——按分鐘計費的翻譯成本在規模化後會快速累積,需事先做好成本規劃。
三款模型皆透過開發者原本已在使用的同一 Realtime API 端點存取,現有整合所需的重構工作極少。OpenAI 已更新文件,特別說明 GPT-Realtime-2 的工具呼叫行為方式與文字模型的工具使用模式有所差異——若開發者直接假設兩者等同,很容易踩坑,建議仔細閱讀遷移指南。
更大的方向信號
從功能細節退一步看,方向已十分清晰:OpenAI 正在打造一個能處理人類實際使用的全部溝通模態的平台——不只是文字,而是語音、翻譯、即時轉錄,以及連結這一切的推理能力。
三款模型同步獲得量產等級 SLA 保障(而非測試版的「盡力而為」),意味著 OpenAI 認為這套基礎設施已成熟到可以嵌入關鍵業務流程。對於一直在觀望是否將語音 AI 推進量產的開發者而言,等待期實際上已宣告結束。