隨著 AI 技術不斷演進,Google Deepmind CEO Demis Hassabis 預測,多模態模型、互動式影片世界和更可靠的 AI Agents 將在明年迎來重大進展。
重點文章
1. 多模態模型應用
Hassabis 在 Axios AI+ Summit 上指出,Gemini 的多模態功能正在推動新應用。他以「鬥陣俱樂部」中的場景為例,AI 不僅描述動作,還將角色移除戒指解讀為放棄日常生活的哲學象徵。Google 最新的圖像模型利用類似功能精準理解視覺內容,從而生成以前無法實現的複雜輸出,例如信息圖。
2. AI Agents 的發展
Hassabis 表示,AI Agents 將在一年內「接近」自主處理複雜任務,這與他 2024 年 5 月預測的時間表一致。目標是開發一種可在各種設備上運作以管理日常生活的通用助理。
3. 互動式影片空間
Deepmind 也在開發像 Genie 3 這樣的「世界模型」,它可以生成可互動、可探索的影片空間。
