Google 推出新 Gemini 模型可於機器人端執行

Google DeepMind 於週二發布了名為 Gemini Robotics On-Device 的新語言模型，該模型可在機器人本地執行任務，無需連線網際網路。此模型建立在三月發布的 Gemini Robotics 基礎之上，能夠控制機器人的動作。開發者可使用自然語言提示來控制和微調模型以滿足不同需求。在基準測試中，Google 聲稱該模型表現水平接近雲端版的 Gemini Robotics 模型，且在一般基準測試中優於其他本地模型，儘管未具體命名對手。在演示中，公司展示了機器人使用此本地模型執行解開袋子摺疊衣物等任務。Google 表示，該模型雖為 ALOHA 機器人訓練，但後來已適配至雙臂 Franka FR3 機器人及 Apptronik 的 Apollo 人形機器人。Google 聲稱雙臂 Franka FR3 成功應對了從未見過的場景和物件，例如在工業傳送帶上進行組裝。此外，Google 還發布了 Gemini Robotics SDK，開發者可透過 MuJoCo 物理模擬器向機器人展示 50 至 100 次任務演示以訓練新任務。其他 AI 模型開發者也在涉足機器人領域，Nvidia 正在構建用於人形機器人的基礎模型平臺，Hugging Face 不僅開發機器人開源模型和資料集，還正在開發機器人，而由 Mirae Asset 支援的韓國起點公司 RLWRLD 也在致力於建立機器人基礎模型。