OpenAI 發佈新一代語音模型 即時推理、翻譯與轉錄能力大幅提升
OpenAI 近期發佈了新一代即時語音模型,包括 GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper。這些模型旨在提升語音互動中的即時推理、翻譯與轉錄能力。儘管 ChatGPT 和 Google Gemini 已具備語音模式,但其背後的語音 AI 模型在推理能力上,過去一直不如純文字模型。OpenAI 指出,現代語音助理需能即時理解對話意圖、追蹤上下文、靈活應變並恰當回應,其新模型正是為此而生。 OpenAI 導入三大創新語音模式 OpenAI 為其語音模型設計了三種可結合的互動模式。「語音轉行動 (Voice-to-Action)」允許用戶口述需求,系統將進行推理並調用工具完成任務。「系統轉語音…