Google 的 Veo 3 是否 playable world models 的開端？

Google 執行長 DeepMind 總裁 Demis Hassabis 於二日傍晚表示，其最新影片生成模型 Veo 3 或許可應用於電子遊戲領域。此回應針對 X 平臺上使用者請求「讓我用 Veo 3 影片玩遊戲」的帖子，Hassabis 幽默地回答「那該多有趣啊」。隨後，Google AI Studio 產品負責人 Logan Kilpatrick 以三個閉嘴表情符號回應。儘管 Google 發言人表示目前無新資訊，但構建可玩世界模型並非不可能。世界模型與影片生成模型不同，前者模擬真實環境動態以預測世界演變，後者則合成真實影片序列。Google 計劃將多模態基礎模型 Gemini 2.5 Pro 轉化為模擬人類大腦部分功能的模型。去年十二月，DeepMind 推出了 Genie 2，該模型能生成無限種可玩世界。隨後 Google 成立新團隊開發模擬真實世界的 AI 模型。其他機構如 AI 先驅 Fei-Fei Li 的 World Labs 也從隱蔽狀態中走出，開發能從單張圖片生成遊戲般 3D 場景的系統。Veo 3 目前處於公開預覽階段，可建立影片及配對的音訊，包括語音和樂曲。雖然 Veo 3 透過模擬物理學實現逼真動作，但它仍非世界模型，而是用於遊戲電影敘事、預告片及敘事原型設計的「被動輸出」生成模型。未來模型需轉變為更主動、互動且可預測的模擬器。遊戲生產的真正挑戰在於實時、一致且可控的模擬。因此，Google 未來若涉足遊戲或可玩世界開發，或許會採取結合 Veo 與 Genie 的混合方法。Google 可能面臨與 Microsoft、Scenario、Runway、Pika 以及最終 OpenAI 的影片生成模型 Sora 競爭。考慮到 Google 在世界模型領域的計劃及其雄厚的資金與分發能力，競爭對手應密切關注此領域動態。