蘋果發佈開源 AI Model – MGIE 以文字指令編輯影像

screenshot 2287

蘋果近日發佈了一款新的開源 AI Model,名為「MGIE」,能夠根據自然語言指令來編輯影像。MGIE 的全名為 MLLM-Guided Image Editing,它運用多模態大型語言模型(MLLMs)來解讀使用者命令,並進行像素級的操作。該 AI Model 能夠處理各種編輯方面,包括 Photoshop 風格的修改、全局照片優化以及局部編輯。

ai pic

MGIE 是 Apple 與加州大學研究人員合作的成果,這 AI Model 在 2024 年的 ICLR(國際學習表示會議)上被接受發表,ICLR 是 AI 研究領域的頂尖會議之一。論文展示了 MGIE 在提升自動度量和人類評估方面的有效性,同時保持了競爭性的推理效率。

MGIE 的基礎理念是運用能夠同時處理文本和影像的強大人工智能模型——多模態大型語言模型(MLLMs),來增強基於指令的影像編輯。MLLMs 在跨模態理解和視覺感知的回應生成方面展現出了顯著的能力,但它們尚未廣泛應用於影像編輯任務上。

MGIE 以兩種方式將 MLLMs 整合進影像編輯過程中:首先,它使用 MLLMs 從用戶輸入中導出富有表達力的指令。這些指令簡潔明了,為編輯過程提供了明確的指導。例如,給定輸入「使天空更藍」,MGIE 能夠產生「將天空區域的飽和度增加 20%」的指令。

其次,它使用 MLLMs 生成視覺想像,即所需編輯的潛在表徵。這一表徵捕捉了編輯的本質,可以用來指導像素級的操作。MGIE 採用了一種新穎的端到端訓練方案,共同優化指令導出、視覺想像和影像編輯模塊。

外界指出,WWDC24 重點之一就是

加入本站 WhatsApp 頻道最新限免情報立即知。

全新本站官方《限時情報王》 iOS 版 登場。限免已完結?不想錯過重大限免應用,可到本站追蹤 Telegram 頻道FacebookIG