分類: 代理 AI
「代理 AI」分類的 AI 新聞與論文。
-
迪亞推出技能畫廊,Perplexity將新增任務至Comet
AI 驅動的瀏覽器目前尚未達到其承諾的能自動執行複雜多步驟任務的未來,但開發者正透過增加重複提示功能來簡化使用者生活。The Browser Company 推出的 Dia 瀏覽器已具備技能功能,允許使用者根據提示讓瀏覽器執行命令或生成程式碼片段,例如搜尋附近未來幾天的有趣活動,並可將提示儲存後用捷徑再次呼叫。社群雖已有相關討論,但 The Browser Company 已正式推出 0.1 版本的官方畫廊,提供按類別整理的技能,使用者可複製提示將其加入個人庫。Perplexity 的新瀏覽器 Comet 也即將推出類似功能,其執行長 Aravind Srinivas 表示,該瀏覽器將於下週推出整理標籤頁、準備會議或查詢社交媒體熱門話題等重複任務的預製捷徑,並稱其將成為個人工作控制檯。此外,使用者還將能使用自然語言提示建立類似 Tampermonkey 的指令碼,以處理常見使用情境。
-
為何一家Y Combinator創辦的公司放棄開發Windows AI代理並轉換方向
創業公司 Pig.dev 曾參與 Y Combinator 2025 年冬季批次,原本致力於開發能控制 Microsoft Windows 桌面的 AI 代理技術。然而,2025 年 5 月,創辦人 Erik Dunteman 宣佈放棄該方向,轉向開發名為 Muscle Mem 的 AI 代理快取系統,旨在讓代理將重複性任務解除安裝,專注於推理。這一轉變引發了 Y Combinator 播客中關於長期電腦使用挑戰的討論。播客中,Replit 創辦人 Amjad Masad 與 YC 合夥人 Tom Blomfield 指出,電腦使用仍是 AI 代理在職場真正發揮作用的關鍵瓶頸,且隨著推理上下文視窗擴大,代理準確度會波動,同時大語言模型成本上升。Blomfield 建議將 Browser Use 或 Pig 的技術應用於企業垂直領域。Masad 認為一旦技術成熟,相關公司將表現出色。儘管 Pig 創辦人已放棄該專案,他解釋稱客戶更傾向於付費購買自動化服務而非開發工具,因此他轉向開發 Muscle Mem。Muscle Mem 靈感來自電腦使用問題,允許代理將重複任務解除安裝,專注於新問題與邊緣案例。Dunteman 對電腦使用作為「最後一哩路」仍抱持樂觀態度。目前,Microsoft 也在推進相關技術,例如 2025 年 4 月將電腦使用功能加入 Copilot Studio,並近期在 Windows 11 中推出幫助終端使用者管理設定的代理工具。
-
OpenAI 發佈通用代理程式於 ChatGPT
OpenAI 於 2025 年 7 月 17 日推出全新通用目的 AI 代理 ChatGPT agent,該工具整合了 Operator 的網頁操作能力與 Deep Research 的資訊綜合能力,旨在讓使用者透過自然語言指令完成複雜的電腦任務。此功能於週四向 Pro、Plus 及 Team 訂閱者開放,使用者可在 ChatGPT 下拉選單中選擇「agent mode」以啟用。該代理具備自動瀏覽網頁、管理日曆、生成可編輯簡報與幻燈片、執行程式碼以及連線 Gmail 與 GitHub 等應用程式的能力。在效能測試方面,ChatGPT agent 模型在 Humanity's Last Exam 測試中得分為 41.6%,約為 o3 與 o4-mini 模型得分的兩倍;在 FrontierMath 數學 benchmarks 中,若具備終端機等工具輔助,其得分為 27.4%,遠高於 o4-mini 的 6.3%。由於該代理具備更強大的自主行動能力,OpenAI 將其標記為生物與化學武器領域的「高能力」模型,並啟動了即時監控系統與分類器,以攔截可能引發生物威脅的回應。此外,為防止惡意使用者透過提示注入攻擊洩漏敏感資料,OpenAI 暫時關閉了該代理的記憶功能。儘管技術表現亮眼,業界仍關注其在真實世界環境中的穩定性與安全性。
-
AI程式碼工具正轉向一個驚人的領域:終端機
近年來,Cursor、Windsurf 及 GitHub Copilot 等程式碼編輯工具一直是 AI 軟體開發的標準,但隨著代理式 AI 的興起與 Vibe Coding 的流行,AI 與軟體的互動方式正發生微妙轉變。AI 不再僅限於編輯程式碼,而是越來越多地直接與系統終端(Terminal)互動。自二月以來,Anthropic、DeepMind 和 OpenAI 分別推出了終端編碼工具 Claude Code、Gemini CLI 和 CLI Codex,這些產品已成為公司最熱門的產品之一。儘管品牌外觀相似,但其底層互動方式已發生實質變化。 知名終端評估指標 Terminal-Bench 的共同創作者 Mike Merrill 表示,未來 95% 的 LLM 與電腦互動將透過類終端介面進行。隨著傳統程式碼編輯工具面臨挑戰,例如 Windsurf 因併購糾紛導致未來不確定,且 METR 研究顯示開發者對 Cursor Pro 等工具的效率提升估計(20% 至 30%)與實際觀察(近 20% 變慢)存在落差,這為終端工具帶來了機會。目前 Warp 在 Terminal-Bench 中排名第一,其創辦人 Zach Lloyd 認為終端位於開發者棧的低層,是最具靈活性執行代理式 AI 的地方。 與專注於解決 GitHub 問題(SWE-Bench)的程式碼生成工具不同,終端工具採取更廣泛的視角,涵蓋 DevOps 任務如配置 Git 伺服器或排查指令碼無法執行的問題。Terminal-Bench 的挑戰不僅在於問題本身,更在於環境,要求 AI 具備逐步解決問題的代理式能力。儘管目前 Warp 僅解決了超過一半的問題,顯示該指標極具挑戰性,但 Lloyd 相信終端工具已能可靠處理開發者大部分非編碼工作,例如自主設定專案依賴並使其可執行,若無法完成則會告知原因。