OpenAI 發佈新一代語音模型 即時推理、翻譯與轉錄能力大幅提升

openai 6

OpenAI 近期發佈了新一代即時語音模型,包括 GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper。這些模型旨在提升語音互動中的即時推理、翻譯與轉錄能力。儘管 ChatGPT 和 Google Gemini 已具備語音模式,但其背後的語音 AI 模型在推理能力上,過去一直不如純文字模型。OpenAI 指出,現代語音助理需能即時理解對話意圖、追蹤上下文、靈活應變並恰當回應,其新模型正是為此而生。

OpenAI 導入三大創新語音模式

OpenAI 為其語音模型設計了三種可結合的互動模式。「語音轉行動 (Voice-to-Action)」允許用戶口述需求,系統將進行推理並調用工具完成任務。「系統轉語音 (Systems-to-Voice)」則讓軟件將上下文轉換為語音指引,例如旅遊應用程式能告知旅客轉機資訊。而「語音轉語音 (Voice-to-Voice)」則能協助跨語言即時對話,德國電信(Deutsche Telekom)已在客服領域測試此功能。OpenAI 表示,這些功能即將整合至 ChatGPT 的語音模式中,語音將真正成為主要的互動介面。

screenshot 919

GPT-Realtime-2 實現 GPT-5 級推理能力

此次發佈的核心是 GPT-Realtime-2,OpenAI 聲稱其推理能力已可媲美 GPT-5 AI 模型。此模型專為即時語音互動設計,能同步進行對話、思考請求、調用工具並處理中斷。在技術層面,其 Token 上下文視窗從 32,000 擴展至 128,000,支援更長且複雜的對話。模型能並行調用多個工具,並透過「讓我查一下」等短語告知用戶其正在處理。即使遇到問題,模型也不會靜默,而是會說出「我現在遇到了一些問題」。

OpenAI 表示,新模型在處理專有名詞、人名及醫學術語方面表現更佳,語氣控制也更加靈活。開發人員可設定五種推理強度,預設為「低」以確保簡單請求的低延遲,複雜任務則可調用更多運算資源。在基準測試中,GPT-Realtime-2 的效能顯著超越 GPT-Realtime-1.5,例如在「高」設定下,Big Bench Audio 準確度從 81.4% 提升至 96.6%。

screenshot 920

即時翻譯轉錄模型上線

此外,GPT-Realtime-Translate 是一款獨立的即時翻譯 AI 模型,支援超過 70 種輸入語言和 13 種輸出語言。它能在保持語義完整性的同時,跟隨說話者的語速,並能應對上下文切換、地區口音和專業詞彙。其應用場景包括客戶支援、跨境銷售、教育和媒體等。第三款模型 GPT-Realtime-Whisper 則是一款低延遲的串流轉錄模型,能即時轉錄語音內容,適用於會議、課堂和廣播的即時字幕。企業可利用它在對話進行中生成筆記與摘要,或建立具備連續語音理解能力的語音助理。所有三款模型均已透過 Realtime API 開放,並可在 Playground 中進行測試。GPT-Realtime-2 的費用為每百萬語音輸入 Token 32 美元,GPT-Realtime-Translate 為每分鐘 0.034 美元,GPT-Realtime-Whisper 則為每分鐘 0.017 美元。

與 GPT-5 相關的圖片

加入本站 WhatsApp 頻道最新限免情報立即知。

全新本站官方《限時情報王》 iOS 版 登場。限免已完結?不想錯過重大限免應用,可到本站追蹤 Telegram 頻道FacebookThreads