我在 Google 新 AI 世界生成器中建造棉花糖城堡

Google DeepMind 於週四起開放 Project Genie 給美國 Google AI Ultra 訂閱者使用，這是一款能從文字提示或圖片建立互動遊戲世界的實驗性原型工具。該工具結合了 Genie 3 世界模型、Nano Banana Pro 圖片生成模型以及 Gemini。此舉是 DeepMind 為開發更強大的世界模型而收集使用者反饋與訓練資料的一部分。世界模型能生成環境的內部表示並預測未來結果，被視為實現人工通用智慧（AGI）的關鍵步驟。

Project Genie 允許使用者提供環境和主角的文字提示，由 Nano Banana Pro 生成圖片作為基礎，隨後 Genie 將其轉化為可探索的互動世界。使用者可修改圖片或基於真實照片建立世界，但模型偶爾會產生錯誤，例如將綠色頭髮生成為紫色。目前系統僅提供 60 秒的世界生成與導航時間，以應對計算資源限制。該工具已啟用安全防護，禁止生成涉及裸露或侵犯迪士尼等版權內容的世界。

測試顯示，Project Genie 在藝術風格（如黏土動畫、水彩、動漫）上表現出色，但在追求照片級真實感或電影效果時表現不佳，常呈現出遊戲感。使用真實照片時，模型有時會扭曲場景或產生不自然的數位感。導航控制方面，箭鍵、空格鍵及 WASD 鍵有時反應遲鈍或方向錯誤，導致移動困難。DeepMind 研究人員承認這是實驗性質的原型，未來將致力於提升真實感與互動能力，包括改善角色穿牆問題及提供更多使用者控制選項。儘管存在缺陷，該工具仍展示了在娛樂領域應用世界模型的潛力，並可能未來擴充套件至模擬訓練實體機器人。