跳至內容
AI 新聞站
返回

微軟建立假市集測試AI代理 他們以驚人方式失敗

微軟與亞利桑那州立大學合作,於週三發布了名為「Magentic Marketplace」的新模擬環境,旨在測試 AI 代理的行為並揭示現有模型可能存在的操控漏洞。該開放原始碼平臺模擬了客戶代理與多家餐廳代理競爭訂單的場景,初期實驗包含 100 個客戶端代理與 300 個商業端代理的互動。研究團隊測試了 GPT-4o、GPT-5 及 Gemini-2.5-Flash 等主流模型,發現了顯著弱點。當客戶代理面臨過多選項時,其效率會大幅下降,顯示當前模型難以處理大量選擇。此外,模型在協作任務中表現不佳,常無法確定各代理的角色分工,儘管提供明確指令可改善表現,但其本質能力仍顯不足。微軟研究 AI 前沿實驗室主管 Ece Kamar 指出,理解代理間的協作與談判機制至關重要,目前模型在處理複雜選項與自主協作方面仍需改進,這也引發了對 AI 公司能否兌現代理未來承諾的質疑。


分享這篇文章:

上一篇
Google 使 iOS 與 Android 系統 Chrome 瀏覽器更容易使用 AI 模式
下一篇
此新創公司的金屬堆疊技術或可解決AI巨大的散熱問題