美國舊金山機器人新創公司 Physical Intelligence 於週四發表新研究,顯示其最新模型 π0.7 能引導機器人執行從未明確訓練過的任務。該模型被描述為邁向通用機器人腦的早期重要一步,具備元件泛化能力,即結合不同情境中學得的技能來解決從未接觸過的問題。這打破了傳統機器人訓練依賴特定任務資料 rote memorization 的模式。研究團隊發現,當模型跨越僅執行資料對應任務的門檻後,其能力增長速度超過線性比例,類似於語言模型領域的現象。
最引人注目的演示涉及空氣炸鍋,該裝置在訓練資料中僅出現兩次相關片段:一次是機器人推閉炸鍋,另一次是將塑膠瓶放入炸鍋。模型綜合這些片段與網路預訓練資料,成功理解並操作該電器烹飪地瓜。在零指導下模型表現尚可,而在逐步語音指導下則能成功執行。此能力意味著機器人可在新環境中即時部署並改進,無需額外資料收集或模型重訓。
研究人員坦承模型仍有侷限,例如無法單從高階指令自主執行複雜多步驟任務,如直接說「幫我烤吐司」便無法達成,但若逐步指導開蓋、按鍵等步驟則運作良好。此外,缺乏標準化機器人評估指標使得外部驗證困難,團隊僅將 π0.7 與自身專項模型比較,發現其在製作咖啡、摺洗衣物及組裝紙箱等任務上表現相當。
研究結果令內部專家感到意外,因為他們清楚訓練資料內容。例如隨機詢問機器人旋轉齒輪時,模型竟能成功執行。研究人員強調,批評者常認為演示任務過於無聊,但 Physical Intelligence 認為泛化能力雖不如精心編排的特技劇本震撼,卻更具實用價值。該研究僅展示早期泛化跡象與初步演示,並非已部署產品。Physical Intelligence 迄今已籌資超過十億美元,最新估值為五十六億美元,創辦人之一 Lachy Groom 曾投資 Figma、Notion 等公司,目前公司正討論可能將估值翻倍至一百一十億美元的新融資輪次。