OpenAI 發佈新一代語音模型　即時推理、翻譯與轉錄能力大幅提升

OpenAI 近期發佈了新一代即時語音模型，包括 GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper。這些模型旨在提升語音互動中的即時推理、翻譯與轉錄能力。儘管 ChatGPT 和 Google Gemini 已具備語音模式，但其背後的語音 AI 模型在推理能力上，過去一直不如純文字模型。OpenAI 指出，現代語音助理需能即時理解對話意圖、追蹤上下文、靈活應變並恰當回應，其新模型正是為此而生。

重點文章

OpenAI 導入三大創新語音模式

OpenAI 為其語音模型設計了三種可結合的互動模式。「語音轉行動 (Voice-to-Action)」允許用戶口述需求，系統將進行推理並調用工具完成任務。「系統轉語音 (Systems-to-Voice)」則讓軟件將上下文轉換為語音指引，例如旅遊應用程式能告知旅客轉機資訊。而「語音轉語音 (Voice-to-Voice)」則能協助跨語言即時對話，德國電信（Deutsche Telekom）已在客服領域測試此功能。OpenAI 表示，這些功能即將整合至 ChatGPT 的語音模式中，語音將真正成為主要的互動介面。

GPT-Realtime-2 實現 GPT-5 級推理能力

此次發佈的核心是 GPT-Realtime-2，OpenAI 聲稱其推理能力已可媲美 GPT-5 AI 模型。此模型專為即時語音互動設計，能同步進行對話、思考請求、調用工具並處理中斷。在技術層面，其 Token 上下文視窗從 32,000 擴展至 128,000，支援更長且複雜的對話。模型能並行調用多個工具，並透過「讓我查一下」等短語告知用戶其正在處理。即使遇到問題，模型也不會靜默，而是會說出「我現在遇到了一些問題」。

OpenAI 表示，新模型在處理專有名詞、人名及醫學術語方面表現更佳，語氣控制也更加靈活。開發人員可設定五種推理強度，預設為「低」以確保簡單請求的低延遲，複雜任務則可調用更多運算資源。在基準測試中，GPT-Realtime-2 的效能顯著超越 GPT-Realtime-1.5，例如在「高」設定下，Big Bench Audio 準確度從 81.4% 提升至 96.6%。

即時翻譯轉錄模型上線

此外，GPT-Realtime-Translate 是一款獨立的即時翻譯 AI 模型，支援超過 70 種輸入語言和 13 種輸出語言。它能在保持語義完整性的同時，跟隨說話者的語速，並能應對上下文切換、地區口音和專業詞彙。其應用場景包括客戶支援、跨境銷售、教育和媒體等。第三款模型 GPT-Realtime-Whisper 則是一款低延遲的串流轉錄模型，能即時轉錄語音內容，適用於會議、課堂和廣播的即時字幕。企業可利用它在對話進行中生成筆記與摘要，或建立具備連續語音理解能力的語音助理。所有三款模型均已透過 Realtime API 開放，並可在 Playground 中進行測試。GPT-Realtime-2 的費用為每百萬語音輸入 Token 32 美元，GPT-Realtime-Translate 為每分鐘 0.034 美元，GPT-Realtime-Whisper 則為每分鐘 0.017 美元。

OpenAI 發佈新一代語音模型 即時推理、翻譯與轉錄能力大幅提升

重點文章

OpenAI 導入三大創新語音模式

GPT-Realtime-2 實現 GPT-5 級推理能力

即時翻譯轉錄模型上線

相關文章

OpenAI 發佈新一代語音模型　即時推理、翻譯與轉錄能力大幅提升