微軟建立假市集測試AI代理他們以驚人方式失敗

微軟與亞利桑那州立大學合作，於週三發布了名為「Magentic Marketplace」的新模擬環境，旨在測試 AI 代理的行為並揭示現有模型可能存在的操控漏洞。該開放原始碼平臺模擬了客戶代理與多家餐廳代理競爭訂單的場景，初期實驗包含 100 個客戶端代理與 300 個商業端代理的互動。研究團隊測試了 GPT-4o、GPT-5 及 Gemini-2.5-Flash 等主流模型，發現了顯著弱點。當客戶代理面臨過多選項時，其效率會大幅下降，顯示當前模型難以處理大量選擇。此外，模型在協作任務中表現不佳，常無法確定各代理的角色分工，儘管提供明確指令可改善表現，但其本質能力仍顯不足。微軟研究 AI 前沿實驗室主管 Ece Kamar 指出，理解代理間的協作與談判機制至關重要，目前模型在處理複雜選項與自主協作方面仍需改進，這也引發了對 AI 公司能否兌現代理未來承諾的質疑。

微軟建立假市集測試AI代理 他們以驚人方式失敗

微軟建立假市集測試AI代理他們以驚人方式失敗