Google 的 SIMA 2 代理使用 Gemini 在虛擬世界中進行推理與行動

Google DeepMind 於週四發布了 SIMA 2 的研究預覽，這是其通用 AI 代理的下一代產品。SIMA 2 整合了 Gemini 大型語言模型的語言與推理能力，使其不僅能遵循指令，更能理解並與環境互動。與許多 DeepMind 專案如 AlphaFold 類似，SIMA 1 最初是透過數百小時的電子遊戲資料訓練而成，旨在像人類一樣學習玩多種 3D 遊戲，包括未受過訓練的遊戲。SIMA 1 於 2024 年 3 月亮相，能在廣泛的虛擬環境中遵循基本指令，但其完成複雜任務的成功率僅為 31%，而人類為 71%。DeepMind 研究高階科學家 Joe Marino 表示，SIMA 2 在能力上相比 SIMA 1 是巨大的進步，它是一個更通用的代理，能在以前未見過的環境中完成複雜任務，並且是一個自我改進的代理，能根據自身經驗進行自我改進，這一步邁向更通用的機器人及 AGI 系統。

SIMA 2 的效能是 SIMA 1 的兩倍，由 Gemini 2.5 flash-lite 模型驅動。AGI 指人工通用智慧，DeepMind 定義為具備廣泛智力任務能力、能學習新技能並在不同領域泛化知識的系統。DeepMind 的研究人員認為，與所謂的「具身代理」合作對於通用智慧至關重要。具身代理透過身體與物理或虛擬世界互動，觀察輸入並採取行動，類似機器人或人類；而非具身代理可能僅用於處理日曆、筆記或執行程式碼。資深研究科學家 Jane Wang 指出，SIMA 2 遠超遊戲玩法，它需要理解正在發生的事情，理解使用者的要求，並以常識方式回應，這相當困難。

SIMA 2 在《No Man’s Sky》中展示了其能力，代理描述了岩石星球表面的環境，並透過識別和互動來確定下一步行動。它還使用 Gemini 進行內部推理，例如當被要求走到像熟透番茄一樣顏色的房子時，代理展示了其思考過程：熟透的番茄是紅色的，因此應該去紅色的房子，然後找到並接近它。由於由 Gemini 驅動，SIMA 2 還能根據表情符號遵循指令，例如輸入樹樵刀和樹木的符號，代理