Google DeepMind 推出了 Genie 3,這是一款最新的基礎世界模型,旨在訓練通用目的 AI 代理,被視為通往人工通用智慧(AGI)的關鍵一步。Genie 3 是首款實時互動的通用世界模型,能生成照片級真實與虛構之間的各種環境。與前代 Genie 2 相比,Genie 3 能透過簡單文字提示生成多分鐘、720p 解析度且每秒 24 幀的互動 3D 環境,並具備「可提示世界事件」功能,允許使用者透過提示改變生成環境。
該模型最顯著的特徵是物理一致性,它能記住先前生成的內容,從而推匯出物理規律,無需硬編碼物理引擎。這種自回歸架構讓模型能像人類一樣理解物體運動與互動。DeepMind 測試顯示,Genie 3 與通用代理 SIMA 結合,能在倉庫場景中成功執行接近垃圾壓縮機或走向叉車等任務。儘管存在限制,例如模擬滑雪者時未完全反映雪地的動態,且代理可執行的動作範圍有限,且連續互動時間僅數分鐘,Genie 3 仍代表重大進步。它使 AI 代理能超越單純反應輸入,具備規劃、探索不確定性及透過試錯自我學習的能力,這被認為是實現具身智慧及通用智慧的關鍵。