Google 最近發佈了其 Nano Banana 圖像生成 AI 模型系列的官方指南,詳述了三款模型之間的差異及各自的適用情境。這份指南特別側重於近期推出的 Nano Banana 2,該模型是基於 Gemini 3.1 Flash Image 技術開發。隨著系列中現有三款模型,這份詳細說明旨在協助開發者和創作者選擇最符合其應用需求的型號。

重點文章
Nano Banana 2 成本效益高成主流選擇
Google 表示,Nano Banana 2 具備 Nano Banana Pro 約 95% 的功能,但成本大幅降低,因此成為大多數新專案的預設推薦。Nano Banana Pro 僅適用於高度複雜、多層次的提示或有極端邏輯需求的場景,然而,Google 也明確指出 Pro 型號仍是目前系列中最佳的圖像模型。至於較舊的 Nano Banana 1 雖然最便宜且速度最快,因為它不是「思考型」模型,但 Google 已不再建議新專案採用。對於需要更精細處理、更佳提示追蹤或全新圖像搜尋功能的開發者,Google 建議直接使用 NB2,特別是在 512 像素解析度下,NB2 的成本與 NB1 大致相同。
Nano Banana 2 獨家支援視覺圖像搜尋功能
Nano Banana 2 的獨家新特點是結合了 Google 搜尋的視覺圖像搜尋(visual grounding)功能。雖然 Nano Banana Pro 已經能從網絡提取文字資訊,但 NB2 更進一步,現在它能夠從網絡搜尋實際圖片,藉此在生成圖像前理解真實物體的樣貌。Google 表示,這項圖像搜尋功能對於特定地點,如教堂、橋樑或城鎮廣場,以及精確的動植物物種特別有效。該指南透過法國沃伊龍的一座教堂和兩種蝴蝶的視覺差異進行演示。需要注意的是,圖像搜尋功能不適用於人物。目前,這項功能僅透過 API 提供,尚未整合到 Gemini 應用程式中。
關閉「思考模式」助降成本
Nano Banana 2 支援 512 像素的圖像生成,可顯著加速生成時間並將成本降低至與 Nano Banana 1 相當的水平。Google 建議採用多階段工作流程:首先利用提供 50% 折扣的批次 API,以 512 像素生成大量變體,然後將最佳構圖放大至 1K、2K 或 4K 解析度。此外,NB2 還支援 1:8 和 1:4 的極端長寬比,無論是垂直或水平方向。Google 表示,這些格式非常適用於網頁橫幅、連續捲動內容或法比風格的漫畫佈局。
Google 也建議 Nano Banana 模型預設關閉「思考模式」(Thinking Mode),因為在一般圖像生成過程中,它主要會增加時間和運算成本。僅在模型產生無意義結果、建立高度複雜的資訊圖表,或結合圖像搜尋與空間推理時,才值得開啟此模式。