Apple 研究人員發佈了名為 Pico-Banana-400K 的綜合性數據集。該數據集包含 40 萬張精選圖像,專門用於提升 AI 系統根據文字指令編輯照片的能力。此舉旨在解決當前 AI 圖像編輯訓練數據中,缺乏真實照片作為基礎所存在的不足。
重點文章
數據集涵蓋的內容
Pico-Banana-400K 中的圖像被分為八大類、35 種不同的編輯類型,範圍從調整顏色等基本修改,到將人物轉換為 Pixar 風格角色等複雜的轉變。Apple 利用其 AI 驅動的品質控制系統,並結合 Google 的 Gemini-2.5-Pro 來評估結果,確保其符合指令要求和技術品質。
揭示 AI 模型不足
該數據集還包含三個專門的子集:25 萬 8 千個單一編輯範例、5 萬 6 千組比較成功與失敗編輯的偏好對,以及 7 萬 2 千個展示圖像如何透過多次連續編輯演變的多輪序列。Apple 是透過分析 Google 的 Gemini-2.5-Flash-Image 編輯模型來構建這批數據的。分析揭露,儘管整體風格變更的成功率高達 93%,但重新定位物體或編輯文字等精確任務的成功率卻嚴重不足,通常低於 60%。
確立新訓練基礎
研究人員表示,Pico-Banana-400K 的目標是為訓練和評估下一代文字引導圖像編輯模型,建立一個穩健的基礎。完整的數據集已在 GitHub 上免費提供,供非商業研究用途使用,以便開發人員能訓練出更強大的圖像編輯 AI。
