Google 今天宣佈推出 Gemini 3.1 Flash Live,稱其為目前最高品質的音訊與語音模型,為 Gemini Live 帶來了迄今為止最大的升級。此新模型在處理音訊細微差別方面更加有效,例如音高和語速,並大幅降低延遲,同時能夠更佳地辨別環境噪音中的相關語音。

重點文章
支援超過 90 種語言
Gemini 3.1 Flash Live 的降噪能力更佳,能有效過濾背景噪音,例如交通或電視聲音。相較於 2.5 Flash Native Audio 模型,其延遲更低,且能更有效地識別音高與語速等聲音細微差異。此外,此模型支援超過 90 種語言,實現即時多模態對話。
強化工具整合與指令遵循
Google 大幅提升了模型在即時對話中觸發外部工具和傳遞資訊的能力。同時,其指令遵循能力也顯著增強,確保智能代理即使在對話偏離預期方向時,也能遵守操作規範,大幅提升對話的連貫性。在 Android 和 iOS 版的 Gemini Live 中,3.1 Flash Live 提供更快的反應速度,減少不自然的停頓,並能將對話線索追蹤的時間延長一倍,讓用戶在長時間的腦力激盪中保持思緒清晰。Gemini Live 現在也能根據當下的情境動態調整回答長度和語氣。
全球推廣 Search Live AI 搜尋服務遍及 200 國
除了 Gemini Live 的升級,Google 也正利用 Gemini 3.1 Flash Live,在全球超過 200 個國家和地區推出 Search Live 服務,將最新的 AI 搜尋體驗帶給更多用戶。