Google 發佈 Gemini 2.5 Computer Use 模型 能自主控制瀏覽器

Gemini 2.5 Comuter Use title

Google DeepMind 推出了一款能操作網頁和手機介面的全新 AI 模型。這個 Gemini 2.5 Computer Use 模型現已開放預覽。

開發者可透過 Gemini API 使用

此模型建立在 Gemini 2.5 Pro 之上,旨在協助代理程式直接與圖形使用者介面互動。它以連續迴圈的方式運作:系統接收環境的螢幕截圖、使用者的請求以及過去操作的記錄。由此,它會產生 UI 操作,例如點擊、輸入或滾動。每次操作後,新的螢幕截圖都會傳回模型,然後重複此過程。

CTU Benchmark Chart RD5 V01.width 1000.format webp

主要針對網頁瀏覽器進行優化

Google 表示,此模型主要針對網頁瀏覽器進行優化,但也可以處理手機 UI 控制。目前還不適用於桌面作業系統層級的任務。根據 Google 的說法,該模型在 Online-Mind2Web、WebVoyager 和 AndroidWorld 等基準測試中,效能優於其他替代方案。這些結果來自 Browserbase 的內部測試和評估,據報導,平均延遲約為 225 秒,準確率超過 70%。

防止濫用的安全機制

Google 識別出三項主要風險:使用者故意濫用、模型意外行為以及網路上的提示注入。該公司表示,已將安全功能直接建置到模型中。每一步驟的安全服務都會在執行前審查每個提議的操作。開發人員還可以利用系統指令,要求使用者確認或阻止特定的高風險操作,例如繞過驗證碼或控制醫療設備。Google 已經在內部將此模型用於 UI 測試、Project Mariner、Firebase Testing Agent 和搜尋中的 AI 模式。Gemini 2.5 Computer Use 可透過 Google AI Studio 和 Vertex AI 取得,Browserbase 提供了演示環境。

加入本站 WhatsApp 頻道最新限免情報立即知。

全新本站官方《限時情報王》 iOS 版 登場。限免已完結?不想錯過重大限免應用,可到本站追蹤 Telegram 頻道FacebookIG