ChatGPT Images 2.0 整合思考推理與網絡搜尋　大幅提圖像品質

OpenAI 正式發佈了 ChatGPT Images 2.0，這款由全新 GPT Image 2 模型驅動的圖像生成工具，其核心特點在於引入了「思考」功能。新模型在生成圖像前會進行推理，並能整合網絡搜尋能力，大幅提升生成結果的多樣性與準確度。此功能將分階段向 ChatGPT Plus、Pro 及 Business 用戶開放。

重點文章

思考模式強化圖像一致性

在啟用思考模式後，ChatGPT Images 2.0 能根據單一指令生成最多八張圖像，確保跨場景的角色、物件和風格保持一致。OpenAI 提出多種應用情境，例如從一張圖片和文字指令生成數頁漫畫、一系列社交媒體圖形，以及不同房間的設計方案，展現其在內容創作領域的巨大潛力。

圖像品質與細節處理提升

無論是否使用思考模式，所有 ChatGPT 用戶都能體驗到圖像品質的提升。OpenAI 表示，新的生成器能更好地捕捉「照片的特點」，並改進了像素藝術、漫畫、電影劇照及其他圖像類型。該模型旨在解決過往圖像模型難以處理的精細元素，例如小文字、圖標、使用者介面元素、複雜構圖和細微的風格指令。此外，其支援的畫面比例從 3:1（超寬）到 1:3（超高），涵蓋了從橫幅、演示投影片到流動螢幕等多種格式，API 版本解像度最高可達 2K。

API 定價策略與應用潛力解析

開發者可透過 `gpt-image-2` API 將新模型整合到自家產品中。OpenAI 採用基於 Token 的收費模式：每百萬圖像輸入 Token 收費 8 美元，圖像輸出 Token 為 30 美元；文字 Token 的輸入費用為 5 美元，輸出費用為 10 美元。實際圖像成本依品質和解像度而異，例如 1024 x 1024 的低品質圖像僅需 0.006 美元，高品質則需 0.211 美元。儘管 GPT Image 2 在較大解像度下比前代便宜，但在標準的 1024 x 1024 高品質模式下，價格略高於 GPT Image 1.5。OpenAI 強調此模型在在地化廣告、資訊圖表、教育內容、設計工具和創意平台等領域的應用潛力。

實測：表現極佳

筆者測試用 Gemini Nano banana 2 及 ChatGPT Image 2.0 生成一張 Info Graph，這次 ChatGPT 明顯較為出色，而且中文完美顯示，排版也很好。

ChatGPT Image 2.0 作品

Nano banana 2 作品

ChatGPT Images 2.0 整合思考推理與網絡搜尋 大幅提圖像品質