Google DeepMind 於週四發布了 SIMA 2 的研究預覽,這是其通用 AI 代理的下一代產品。SIMA 2 整合了 Gemini 大型語言模型的語言與推理能力,使其不僅能遵循指令,更能理解並與環境互動。與許多 DeepMind 專案如 AlphaFold 類似,SIMA 1 最初是透過數百小時的電子遊戲資料訓練而成,旨在像人類一樣學習玩多種 3D 遊戲,包括未受過訓練的遊戲。SIMA 1 於 2024 年 3 月亮相,能在廣泛的虛擬環境中遵循基本指令,但其完成複雜任務的成功率僅為 31%,而人類為 71%。DeepMind 研究高階科學家 Joe Marino 表示,SIMA 2 在能力上相比 SIMA 1 是巨大的進步,它是一個更通用的代理,能在以前未見過的環境中完成複雜任務,並且是一個自我改進的代理,能根據自身經驗進行自我改進,這一步邁向更通用的機器人及 AGI 系統。
SIMA 2 的效能是 SIMA 1 的兩倍,由 Gemini 2.5 flash-lite 模型驅動。AGI 指人工通用智慧,DeepMind 定義為具備廣泛智力任務能力、能學習新技能並在不同領域泛化知識的系統。DeepMind 的研究人員認為,與所謂的「具身代理」合作對於通用智慧至關重要。具身代理透過身體與物理或虛擬世界互動,觀察輸入並採取行動,類似機器人或人類;而非具身代理可能僅用於處理日曆、筆記或執行程式碼。資深研究科學家 Jane Wang 指出,SIMA 2 遠超遊戲玩法,它需要理解正在發生的事情,理解使用者的要求,並以常識方式回應,這相當困難。
SIMA 2 在《No Man’s Sky》中展示了其能力,代理描述了岩石星球表面的環境,並透過識別和互動來確定下一步行動。它還使用 Gemini 進行內部推理,例如當被要求走到像熟透番茄一樣顏色的房子時,代理展示了其思考過程:熟透的番茄是紅色的,因此應該去紅色的房子,然後找到並接近它。由於由 Gemini 驅動,SIMA 2 還能根據表情符號遵循指令,例如輸入樹樵刀和樹木的符號,代理