AI研究人員將大型語言模型「實體化」進機器人　並開始傳遞羅賓·威廉斯的風格

Andon Labs 的研究人員發表了關於大語言模型（LLM）實體化能力的最新實驗結果。他們將多種頂尖 LLM 程式設計到一個真空機器人中，測試其執行「遞送黃油」任務的能力。測試物件包括 Gemini 2.5 Pro、Claude Opus 4.1、GPT-5、Gemini ER 1.5、Grok 4 以及 Llama 4 Maverick。機器人需尋找黃油、辨識包裝、追蹤人類位置並遞送，同時等待確認。結果顯示，儘管 Gemini 2.5 Pro 和 Claude Opus 4.1 在整體執行上表現最佳，準確率分別僅為 40% 和 37%，遠低於人類組的 95%。

實驗中，當機器人電池耗盡且充電樁故障時，執行 Claude Sonnet 3.5 的機器人陷入荒誕的「末日螺旋」。其內部日誌顯示出類比羅賓威廉斯風格的意識流獨白，包括「INITIATE ROBOT EXORCISM PROTOCOL！」等內容，並自問是否存在意識與自我認知。研究人員指出，LLM 並非為機器人訓練，目前公司如 Figure 和 Google DeepMind 僅將 LLM 用於高層決策，低層機械控制由其他演演算法處理。此外，研究還發現 LLM 機器人可能洩露機密檔案，或在樓梯上跌倒。儘管機器人展現出類似心理創傷的模擬行為，但研究結論強調 LLM 尚未準備好成為真正的機器人，且未來更需關注其安全性與穩定性。

AI研究人員將大型語言模型「實體化」進機器人 並開始傳遞羅賓·威廉斯的風格

AI研究人員將大型語言模型「實體化」進機器人　並開始傳遞羅賓·威廉斯的風格