ChatGPT Images 2.0 整合思考推理與網絡搜尋 大幅提圖像品質

screenshot 709

OpenAI 正式發佈了 ChatGPT Images 2.0,這款由全新 GPT Image 2 模型驅動的圖像生成工具,其核心特點在於引入了「思考」功能。新模型在生成圖像前會進行推理,並能整合網絡搜尋能力,大幅提升生成結果的多樣性與準確度。此功能將分階段向 ChatGPT Plus、Pro 及 Business 用戶開放。

screenshot 705

思考模式強化圖像一致性

在啟用思考模式後,ChatGPT Images 2.0 能根據單一指令生成最多八張圖像,確保跨場景的角色、物件和風格保持一致。OpenAI 提出多種應用情境,例如從一張圖片和文字指令生成數頁漫畫、一系列社交媒體圖形,以及不同房間的設計方案,展現其在內容創作領域的巨大潛力。

screenshot 708

圖像品質與細節處理提升

無論是否使用思考模式,所有 ChatGPT 用戶都能體驗到圖像品質的提升。OpenAI 表示,新的生成器能更好地捕捉「照片的特點」,並改進了像素藝術、漫畫、電影劇照及其他圖像類型。該模型旨在解決過往圖像模型難以處理的精細元素,例如小文字、圖標、使用者介面元素、複雜構圖和細微的風格指令。此外,其支援的畫面比例從 3:1(超寬)到 1:3(超高),涵蓋了從橫幅、演示投影片到流動螢幕等多種格式,API 版本解像度最高可達 2K。

screenshot 706

API 定價策略與應用潛力解析

開發者可透過 `gpt-image-2` API 將新模型整合到自家產品中。OpenAI 採用基於 Token 的收費模式:每百萬圖像輸入 Token 收費 8 美元,圖像輸出 Token 為 30 美元;文字 Token 的輸入費用為 5 美元,輸出費用為 10 美元。實際圖像成本依品質和解像度而異,例如 1024 x 1024 的低品質圖像僅需 0.006 美元,高品質則需 0.211 美元。儘管 GPT Image 2 在較大解像度下比前代便宜,但在標準的 1024 x 1024 高品質模式下,價格略高於 GPT Image 1.5。OpenAI 強調此模型在在地化廣告、資訊圖表、教育內容、設計工具和創意平台等領域的應用潛力。

實測:表現極佳

筆者測試用 Gemini Nano banana 2 及 ChatGPT Image 2.0 生成一張 Info Graph,這次 ChatGPT 明顯較為出色,而且中文完美顯示,排版也很好。

ChatGPT Image 2.0 作品

c5d516a8 4074 498a 8df0 d0b13df2ee37

Nano banana 2 作品

Gemini Generated Image 16o5m516o5m516o5

加入本站 WhatsApp 頻道最新限免情報立即知。

全新本站官方《限時情報王》 iOS 版 登場。限免已完結?不想錯過重大限免應用,可到本站追蹤 Telegram 頻道FacebookThreads