Google DeepMind 近日宣佈推出突破性的 Genie 3 模型,這款通用型世界模型為 Genie 2 的後繼版本,能夠根據簡單的文字提示,生成高度互動的虛擬環境。Google 表示,使用者將能以每秒 24 幀、720p 解析度的流暢度,即時在這些透過 AI 生成的環境中自由探索。

重點文章
Genie 3 的強大功能
Google DeepMind 指出,Genie 3 具備多項功能,能夠高度真實地模擬各種自然現象,包含水流、光影效果及複雜的環境互動。此外,該模型可生成逼真的生態系統,並捕捉動物細緻的行為與植物複雜的生長模式。Genie 3 也支援富有表現力的動畫角色,進而實現更具想像力的世界建構,並能高保真度地生成遙遠地點和歷史時代的沉浸式體驗。
關鍵技術突破
Google 表示,Genie 3 之所以能達到如此高度的可控性與即時互動性,歸因於多項重大的技術突破。在生成每個畫面時,該模型會考量預先生成的軌跡,且這項軌跡會隨著時間推進而發展。Google 也強調,Genie 3 生成的環境在數分鐘內都能保持高度一致性,其視覺記憶甚至能追溯至一分鐘以前。
仍有待克服的限制
儘管 Genie 3 功能強大,Google DeepMind 團隊也坦承其仍存在一些已知限制,包括:動作空間有限;模擬多個獨立代理程式間的複雜互動仍是挑戰;無法完全精確呈現真實世界地點;清晰可讀的文字通常僅在輸入描述中提供時才能生成;以及目前的連續互動時間僅限於數分鐘。Genie 3 目前僅供部分創作者與學術界人士使用,Google 正持續探索將該模型開放給更多測試者的可能性。
