Google 近期宣布旗下的 Gemini 2.5 Flash Image 模型已正式開放供生產環境使用。這款新的 AI 模型專注於高效能的圖像生成、編輯及組合功能,旨在為開發者提供更快速且多功能的視覺內容創建工具。
重點文章
核心功能與支援格式
Gemini 2.5 Flash Image 支援使用者透過簡單的英文或語音指令來創建和編輯圖像,甚至能夠進行精確的定向編輯,並且可以輸出不帶有文字說明或多餘標籤的圖像。該模型具備高度的彈性,共支援 10 種不同的長寬比,範圍涵蓋電影級的 21:9、標準 16:9,到正方形 1:1,以及垂直的 9:16 格式,滿足各種內容創作需求。

定價與開發者工具
此 AI 模型的定價為每張圖像 0.039 美元起跳,而一百萬個輸出 Token 的費用則為 30 美元。開發者現已可透過 Gemini API 以及 Vertex AI 平台取用此模型。此外,Google AI Studio 也提供建構模式(Build mode),讓開發者能將簡單的指令轉化為可運行的原型,這些原型可以直接在 AI Studio 中執行或匯出為程式碼。
真實世界應用案例
Gemini 2.5 Flash Image 模型特別適合需要連貫角色設計和靈活圖像處理的專案。例如,新創公司 Cartwheel 將此模型與其 3D 擺姿工具結合,允許用戶從任何角度渲染角色。Cartwheel 聯合創辦人 Andrew Carr 表示,當其他模型難以同時處理視角或上下文時,Gemini 2.5 Flash Image 能夠同時解決這兩個考量。另一個 AI 工作室 Volley 則在他們的遊戲《Wit’s End》中使用此模型,即時生成肖像、場景轉換和圖像編輯。Volley 技術長 James Wilsterman 指出,延遲時間低於 10 秒,讓玩家能夠透過語音或聊天進行即時控制。