OpenAI 實時 API 支援語氣辨識

openai blog realtime

OpenAI 正式推出「實時 API」,預計將為語音助理應用帶來革命性突破。這個 API 已從測試版升級為正式版,其核心組件「gpt-realtime」模型能夠直接生成和處理語音,無需傳統的文字轉換步驟。根據 OpenAI 的說法,它回應速度更快、語音更自然,並能更有效地處理複雜指令,超越了以往的版本,主要應用於客戶服務、教育或個人生產力等領域的語音助理開發。

openai

語氣辨識與效能提升

OpenAI 表示,gpt-realtime 模型現在能夠識別笑聲等非口語線索,甚至能在句子中途切換語言,並調整語氣,例如以「帶有法語口音的友好語氣」或「快速且專業的語氣」進行交流。此 模型 也新增了 Cedar 和 Marin 兩種語音,並改進了現有語音的表現。在效能基準測試方面,gpt-realtime 在 Big Bench Audio 上達到 82.8% 的準確性(從 65.6% 提升),在 MultiChallenge 上達到 30.5%(從 20.6% 提升),在 ComplexFuncBench 上達到 66.5%(從 49.7% 提升)。

強化工具整合與圖像輸入

此 API 現已簡化了工具整合流程。OpenAI 指出,該 模型 更擅長選擇合適的工具、在正確時間觸發並運用正確的參數,使功能調用更加可靠。開發人員可以透過 SIP 和遠端 MCP 伺服器連接外部工具與服務。此外,可重複使用的提示功能允許儲存不同應用情境的配置與工具設定。圖像輸入功能也獲得支援,使用者可以在對話中傳送螢幕截圖或照片, 模型 能參考這些圖像,例如讀取圖像中的文字或回答關於圖像內容的問題。開發人員可以控制 模型 能夠看到的內容。

screenshot 517
Screenshot

成本效益與安全機制

新增的選項讓開發人員能夠設定 Token 限制並截斷多輪對話,有助於控制長時間會話的成本。gpt-realtime 的定價現已降低 20%,音頻輸入 Token 每百萬 32 美元,輸出 Token 每百萬 64 美元;快取輸入 Token 則為每百萬 0.40 美元。OpenAI 表示,此 API 能夠偵測到有問題的內容並終止違反其政策的對話,但考量到語言 模型 過往的安全問題,這不應是唯一的防護措施。開發人員可以自行增加安全要求。針對歐盟使用者,OpenAI 提供在歐盟境內儲存資料的選項以及針對企業的特殊隱私規則。

加入本站 WhatsApp 頻道最新限免情報立即知。

全新本站官方《限時情報王》 iOS 版 登場。限免已完結?不想錯過重大限免應用,可到本站追蹤 Telegram 頻道FacebookIG