Google DeepMind 推出了一款能操作網頁和手機介面的全新 AI 模型。這個 Gemini 2.5 Computer Use 模型現已開放預覽。
重點文章
開發者可透過 Gemini API 使用
此模型建立在 Gemini 2.5 Pro 之上,旨在協助代理程式直接與圖形使用者介面互動。它以連續迴圈的方式運作:系統接收環境的螢幕截圖、使用者的請求以及過去操作的記錄。由此,它會產生 UI 操作,例如點擊、輸入或滾動。每次操作後,新的螢幕截圖都會傳回模型,然後重複此過程。

主要針對網頁瀏覽器進行優化
Google 表示,此模型主要針對網頁瀏覽器進行優化,但也可以處理手機 UI 控制。目前還不適用於桌面作業系統層級的任務。根據 Google 的說法,該模型在 Online-Mind2Web、WebVoyager 和 AndroidWorld 等基準測試中,效能優於其他替代方案。這些結果來自 Browserbase 的內部測試和評估,據報導,平均延遲約為 225 秒,準確率超過 70%。
防止濫用的安全機制
Google 識別出三項主要風險:使用者故意濫用、模型意外行為以及網路上的提示注入。該公司表示,已將安全功能直接建置到模型中。每一步驟的安全服務都會在執行前審查每個提議的操作。開發人員還可以利用系統指令,要求使用者確認或阻止特定的高風險操作,例如繞過驗證碼或控制醫療設備。Google 已經在內部將此模型用於 UI 測試、Project Mariner、Firebase Testing Agent 和搜尋中的 AI 模式。Gemini 2.5 Computer Use 可透過 Google AI Studio 和 Vertex AI 取得,Browserbase 提供了演示環境。