Google 發佈 Gemini 2.5 Computer Use 模型　能自主控制瀏覽器

2025-10-08

Gemini 2.5 Comuter Use title

Google DeepMind 推出了一款能操作網頁和手機介面的全新 AI 模型。這個 Gemini 2.5 Computer Use 模型現已開放預覽。

重點文章

開發者可透過 Gemini API 使用

此模型建立在 Gemini 2.5 Pro 之上，旨在協助代理程式直接與圖形使用者介面互動。它以連續迴圈的方式運作：系統接收環境的螢幕截圖、使用者的請求以及過去操作的記錄。由此，它會產生 UI 操作，例如點擊、輸入或滾動。每次操作後，新的螢幕截圖都會傳回模型，然後重複此過程。

CTU Benchmark Chart RD5 V01.width 1000.format webp

主要針對網頁瀏覽器進行優化

Google 表示，此模型主要針對網頁瀏覽器進行優化，但也可以處理手機 UI 控制。目前還不適用於桌面作業系統層級的任務。根據 Google 的說法，該模型在 Online-Mind2Web、WebVoyager 和 AndroidWorld 等基準測試中，效能優於其他替代方案。這些結果來自 Browserbase 的內部測試和評估，據報導，平均延遲約為 225 秒，準確率超過 70%。

防止濫用的安全機制

Google 識別出三項主要風險：使用者故意濫用、模型意外行為以及網路上的提示注入。該公司表示，已將安全功能直接建置到模型中。每一步驟的安全服務都會在執行前審查每個提議的操作。開發人員還可以利用系統指令，要求使用者確認或阻止特定的高風險操作，例如繞過驗證碼或控制醫療設備。Google 已經在內部將此模型用於 UI 測試、Project Mariner、Firebase Testing Agent 和搜尋中的 AI 模式。Gemini 2.5 Computer Use 可透過 Google AI Studio 和 Vertex AI 取得，Browserbase 提供了演示環境。

Author

Doris

真 ● 犀利人妻為 Level 99 全職媽媽（已覺醒）！技能：神速（做家務、接放學、煮飯、寫稿）

加入本站 WhatsApp 頻道最新限免情報立即知。

全新本站官方《限時情報王》 iOS 版登場。限免已完結？不想錯過重大限免應用，可到本站追蹤 Telegram 頻道、Facebook、Threads。