分類: 代理 AI
「代理 AI」分類的 AI 新聞與論文。
-
微軟建立假市集測試AI代理 他們以驚人方式失敗
微軟與亞利桑那州立大學合作,於週三發布了名為「Magentic Marketplace」的新模擬環境,旨在測試 AI 代理的行為並揭示現有模型可能存在的操控漏洞。該開放原始碼平臺模擬了客戶代理與多家餐廳代理競爭訂單的場景,初期實驗包含 100 個客戶端代理與 300 個商業端代理的互動。研究團隊測試了 GPT-4o、GPT-5 及 Gemini-2.5-Flash 等主流模型,發現了顯著弱點。當客戶代理面臨過多選項時,其效率會大幅下降,顯示當前模型難以處理大量選擇。此外,模型在協作任務中表現不佳,常無法確定各代理的角色分工,儘管提供明確指令可改善表現,但其本質能力仍顯不足。微軟研究 AI 前沿實驗室主管 Ece Kamar 指出,理解代理間的協作與談判機制至關重要,目前模型在處理複雜選項與自主協作方面仍需改進,這也引發了對 AI 公司能否兌現代理未來承諾的質疑。
-
Google 的 AI 模式新增代理功能,協助預訂活動門票與美容約見
Google 於週二宣佈在 AI Mode 中推出新的代理功能,允許使用者在搜尋引擎內直接處理複雜查詢與後續問題。此功能現在支援預訂活動門票及美容健康預約,例如使用者可要求尋找兩張便宜且為站立席的 Shaboozey 演唱會門票,AI Mode 將跨多個網站搜尋即時選項並提供精選價格列表,最後連結至預訂頁面完成購買。該功能目前僅開放給已加入 Google 實驗性部門 Search Labs 的美國使用者,Google AI Pro 及 Ultra 訂閱者則享有高使用限制。Google 於八月首次引入代理功能,當時用於餐廳預訂,使用者可根據人數、日期、時間、地點及菜系等多重偏好進行查詢,系統會搜尋不同預訂平臺並呈現符合條件的餐廳選項。Google 強調其搜尋優先提供高品質可靠資訊,此新模式雖基於核心品質與安全系統,但仍屬早期實驗,可能出現錯誤。AI Mode 自三月推出以來,旨在應對 Perplexity AI 及 OpenAI 的 ChatGPT Search 等競爭對手,目前已擴充套件至超過一百八十個國家,並新增 Canvas 功能協助建立學習計劃,以及整合 Google Lens 以識別桌面螢幕內容。
-
Solana創始人Anatoly Yakovenko是代理程式設計的熱衷支持者
Solana Labs 執行長 Anatoly Yakovenko 在 TechCrunch Disrupt 活動中表示,隨著代理程式碼工具(agentic coding tools)的興起,軟體工程師的開發模式發生了巨大轉變。擁有超過十五年開發經驗的 Yakovenko 表示,AI 對於專家而言是強大的乘數效應,他現在可以將大部分時間花在監督 AI 工具(如 Claude)的運作上,僅需透過嗅覺判斷其是否出錯,甚至在會議中專注於監控 AI 而非親自參與討論。 Solana 協議今年表現亮眼,儘管許多加密貨幣面臨挑戰,Solana 近期宣佈年度營收達 28.5 億美元,主要來自加密交易平臺。更令人印象深刻的是,Solana 的首個交易所交易基金(ETF)於 Yakovenko 上臺前一天由 Bitwise 管理公司推出,單日資金流入近 7000 萬美元。Yakovenko 歸功於傳統金融業對加密貨幣的接受度提升,指出後臺金融人員因常需處理結算風險與銀行風險,能更快理解並採用加密技術。 然而,Solana 也面臨批評,特別是關於其託管的 Trumpcoin 被指涉及公開賄賂。該幣估計有 3.5 億美元流向總統,引發爭議,尤其是在特朗普高調赦免 Tron 創辦人 Justin Sun 及 Binance 創辦人 Changpeng Zhao 之後。Yakovenko 強調,由於 Solana 是開放協議,他無法控制託管幣種,並指出任何鏈上協議(如 Trumpcoin 或 Fartcoin)均受協議規則約束,他無法直接幹預。
-
Mbodi 將展示如何利用 AI 代理訓練機器人參加 TechCrunch Disrupt 2025
紐約公司 Mbodi 旨在利用 AI 代理技術,解決機器人實世界適應性差的難題。該公司將作為 TechCrunch Disrupt 2025 的 Top 20 Startup Battlefield 最終候選人展示其技術。Mbodi 建立了一套結合雲端與邊緣運算的混合系統,能整合現有機器人技術棧。其軟體依賴多個相互溝通的 AI 代理,將使用者的自然語言指令拆解為子任務,協助機器人快速學習新任務。共同創辦人 Xavier Chi 指出,物理世界擁有無限可能性,缺乏資料是主要挑戰,因此需要系統來協調不同模型並允許即時修正。Mbodi 於 2024 年推出,專注於包裝與抓取任務,並曾獲得 ABB Robotics AI 創業競賽獎項,與被 SoftBank 以 54 億美元收購的瑞士機器人組織建立合作。目前,Mbodi 正與一家消費品與產品領域的 Fortune 100 公司進行概念驗證,目標是在 2026 年開始大規模部署。該公司強調其目標是建立可靠且可投入生產的解決方案,而非僅限於研究實驗室。