微軟與亞利桑那州立大學合作,於週三發布了名為「Magentic Marketplace」的新模擬環境,旨在測試 AI 代理的行為並揭示現有模型可能存在的操控漏洞。該開放原始碼平臺模擬了客戶代理與多家餐廳代理競爭訂單的場景,初期實驗包含 100 個客戶端代理與 300 個商業端代理的互動。研究團隊測試了 GPT-4o、GPT-5 及 Gemini-2.5-Flash 等主流模型,發現了顯著弱點。當客戶代理面臨過多選項時,其效率會大幅下降,顯示當前模型難以處理大量選擇。此外,模型在協作任務中表現不佳,常無法確定各代理的角色分工,儘管提供明確指令可改善表現,但其本質能力仍顯不足。微軟研究 AI 前沿實驗室主管 Ece Kamar 指出,理解代理間的協作與談判機制至關重要,目前模型在處理複雜選項與自主協作方面仍需改進,這也引發了對 AI 公司能否兌現代理未來承諾的質疑。
微軟建立假市集測試AI代理 他們以驚人方式失敗
分享這篇文章: