Meta 的 V-JEPA 2 模型教 AI 理解周遭環境

Meta 於週三推出了全新的 V-JEPA 2 AI 模型，這是一種旨在協助 AI 代理理解周遭環境的「世界模型」。該模型是 Meta 去年發布的 V-JEPA 模型的延伸版本，訓練資料涵蓋超過一百萬小時的影片。這些資料有助於機器人或其他 AI 代理在物理世界中運作，理解並預測重力等概念如何影響後續事件序列。這種常識性連結類似於兒童和動物在腦部發展過程中所具備的能力，例如在與狗玩接球遊戲時，狗能理解將球拍向地面會使其反彈向上，並跑向它認為球會落地的位置，而非球當下的精確位置。Meta 展示了機器人可能面臨的場景，例如手持盤子和鏟子走向有熟雞蛋的爐灶，AI 能預測最可能的下一步行動是用鏟子將雞蛋移到盤子上。根據 Meta 的說法，V-JEPA 2 的速度比 Nvidia 的 Cosmos 模型快 30 倍，後者同樣致力於增強與物理世界相關的智慧。不過，Meta 可能使用與 Nvidia 不同的基準來評估其模型。Meta 首席 AI 科學家 Yann LeCun 在影片中表示，他們相信世界模型將開啟機器人新紀元，使真實世界的 AI 代理能夠協助完成雜務和物理任務，而無需天文數字般的機器人訓練資料。