OpenAI 實時 API 支援語氣辨識

OpenAI 正式推出「實時 API」，預計將為語音助理應用帶來革命性突破。這個 API 已從測試版升級為正式版，其核心組件「gpt-realtime」模型能夠直接生成和處理語音，無需傳統的文字轉換步驟。根據 OpenAI 的說法，它回應速度更快、語音更自然，並能更有效地處理複雜指令，超越了以往的版本，主要應用於客戶服務、教育或個人生產力等領域的語音助理開發。

重點文章

語氣辨識與效能提升

OpenAI 表示，gpt-realtime 模型現在能夠識別笑聲等非口語線索，甚至能在句子中途切換語言，並調整語氣，例如以「帶有法語口音的友好語氣」或「快速且專業的語氣」進行交流。此模型也新增了 Cedar 和 Marin 兩種語音，並改進了現有語音的表現。在效能基準測試方面，gpt-realtime 在 Big Bench Audio 上達到 82.8% 的準確性（從 65.6% 提升），在 MultiChallenge 上達到 30.5%（從 20.6% 提升），在 ComplexFuncBench 上達到 66.5%（從 49.7% 提升）。

強化工具整合與圖像輸入

此 API 現已簡化了工具整合流程。OpenAI 指出，該模型更擅長選擇合適的工具、在正確時間觸發並運用正確的參數，使功能調用更加可靠。開發人員可以透過 SIP 和遠端 MCP 伺服器連接外部工具與服務。此外，可重複使用的提示功能允許儲存不同應用情境的配置與工具設定。圖像輸入功能也獲得支援，使用者可以在對話中傳送螢幕截圖或照片，模型能參考這些圖像，例如讀取圖像中的文字或回答關於圖像內容的問題。開發人員可以控制模型能夠看到的內容。

成本效益與安全機制

新增的選項讓開發人員能夠設定 Token 限制並截斷多輪對話，有助於控制長時間會話的成本。gpt-realtime 的定價現已降低 20%，音頻輸入 Token 每百萬 32 美元，輸出 Token 每百萬 64 美元；快取輸入 Token 則為每百萬 0.40 美元。OpenAI 表示，此 API 能夠偵測到有問題的內容並終止違反其政策的對話，但考量到語言模型過往的安全問題，這不應是唯一的防護措施。開發人員可以自行增加安全要求。針對歐盟使用者，OpenAI 提供在歐盟境內儲存資料的選項以及針對企業的特殊隱私規則。

OpenAI 實時 API 支援語氣辨識

重點文章

語氣辨識與效能提升

強化工具整合與圖像輸入

成本效益與安全機制

相關文章