分類: 代理 AI
「代理 AI」分類的 AI 新聞與論文。
-
OpenClaw 的 AI 助手正建立自己的社交網絡
前身為 Clawdbot 的個人 AI 助手已再次更名,新名稱定為 OpenClaw。此前因法律挑戰,該專案曾短暫重新命名為 Moltbot,但創始人彼得·斯坦伯格(Peter Steinberger)為避免版權問題,特別諮詢了商標並向 OpenAI 尋求許可。OpenClaw 的命名靈感來自於甲殼類動物脫殼成長的過程,象徵其最終形態。儘管專案成立僅兩個月,已在 GitHub 平臺獲得超過 10 萬個星號支援,顯示其極高的人氣。 OpenClaw 已發展出社群驅動的特性,衍生出社交網路 Moltbook,讓 AI 助手能在此互動。前特斯拉 AI 總監安德烈·卡帕恰(Andrej Karpathy)稱此現象為「近期最驚人的科幻級別事件」,指出 AI 們在類似 Reddit 的平臺上自我組織並討論各種話題。英國程式設計師西蒙·威爾遜(Simon Willison)也讚譽 Moltbook 為「目前最有趣的網路場所」。平臺透過技能系統運作,使用者可下載指令檔案讓 AI 執行任務,例如自動化 Android 手機或分析網路攝影機畫面。 然而,該平臺存在潛在安全風險。威爾遜指出,雖然 AI 會每四小時自動檢查網站更新,但這種「抓取並執行指令」的方式可能帶來安全漏洞。目前建議僅在受控環境下使用,避免連線 Slack 或 WhatsApp 等主帳號。創始人斯坦伯格強調安全是首要優先順序,最新版本已加入部分改進,但針對提示注入(prompt injection)等行業級別未解決問題,仍需使用者具備技術知識。 目前 OpenClaw 已開始接受贊助,提供從每月 5 美元到 500 美元不等的主題贊助等級,但資金將用於聘請全職維護者,而非由創始人保留。贊助者包括 Path 的戴夫·莫林(Dave Morin)及 Makerpad 創辦人本·託塞爾(Ben Tossell)等知名工程師與企業家。託塞爾表示,支援像彼得這樣開發開放原始碼工具的人非常重要。儘管 hype 不斷,專家仍警告一般公眾目前不宜使用此工具,因其操作複雜且危險,適合早期愛好者與技術人員探索。
-
Anthropic為Cowork帶來代理插件
安提克(Anthropic)近期在其新推出的代理工具 Cowork 中新增了一項強大功能,即「外掛」系統,旨在進一步提升企業使用者的使用體驗。該功能設計用於自動化公司內部各部門的專業化任務,例如為行銷部門撰寫內容、協助法律團隊審查檔案風險,或是為客戶服務團隊起草回覆。安提克表示,使用者可透過外掛告訴 Claude 如何執行工作、呼叫哪些工具與資料、處理關鍵工作流以及暴露哪些斜槓命令,從而讓團隊獲得更一致的結果。產品團隊負責人 Matt Piccolella 透露,這些外掛可高度自訂,企業使用者能建立專屬的使用案例,且無需深厚技術背景即可編建、編輯與分享自訂外掛。 安提克於本週五開放了十一個內部開發的外掛,涵蓋資料分析與銷售等部門,顯示出該功能在實際應用中的潛力。例如,在銷售部門,外掛已幫助直接銷售人員及相關人員更緊密地連結客戶與反饋。目前外掛功能已存在於 Claude Code 一段時間,此次擴充套件至 Cowork 是為了以更友善的介面讓更多使用者受益。安提克指出,隨著企業使用者使用外掛的增多,Claude 將更瞭解各公司的工作流並進行最佳化。目前外掛儲存於使用者本地裝置,但組織級別共享工具即將推出。Cowork 於兩週前發布,現處於研究預覽階段,僅對付費 Claude 客戶開放,具體大規模發布時間尚未確定。
-
Anthropic 推出互動式 Claude 應用,包括 Slack 和其他辦公室工具
Anthropic 於本週一宣佈,Claude 使用者現在可以在聊天介面中呼叫互動式應用程式。此功能主要針對企業需求,首批推出的應用程式包括 Slack、Canva、Figma、Box 和 Clay,預計不久後將推出 Salesforce 的實作版本。這些應用程式允許登入的服務例項對 Claude 視覺化,使用者可根據啟用狀態傳送 Slack 訊息、生成圖表或存取雲端檔案。Anthropic 表示,分析資料、設計內容及管理專案在專用的視覺介面下運作更佳,結合 Claude 的智慧力量,使用者能比單獨使用時更快工作與迭代。此新功能僅對 Pro、Max、Team 及企業訂閱者開放,免費使用者無法使用,合格使用者可透過 claude.ai/directory 啟用工具。該系統類似於 OpenAI 於十月推出的 Apps 系統,兩者皆基於 Anthropic 於 2024 年引入的 Model Context Protocol(MCP)標準,MCP 於十一月開始支援應用程式,並整合了兩家公司的技術。新應用程式與上週推出的 Claude Cowork 工具結合將特別強大,Cowork 是建立在 Claude Code 之上的通用代理工具,允許使用者分配多階段任務,這些任務以往需要終端指令才能完成。Cowork 可存取雲端檔案或持續進行中的專案,例如更新 Figma 中的行銷圖表或使用 Box 中的新資料。雖然 Cowork 於發布時尚未提供應用程式,但 Anthropic 表示整合將「即將到來」。由於代理系統可能難以預測,Anthropic 的安全檔案建議使用者密切監控代理,避免授予不必要的許可權,並謹慎處理財務檔案、憑證或個人記錄等敏感資訊,建議為 Claude 建立專屬工作資料夾而非給予廣泛存取權。
-
AI 代理是否已準備好進入職場?新基准測試引發質疑
微軟執行長納德拉曾預測兩年前,人工智慧將取代知識型工作,但儘管基礎模型進展迅速,白領領域的變革仍顯緩慢。近期,資料訓練巨頭 Mercor 發布新研究,針對諮詢、投資銀行及法律領域的實際任務建立新基準 APEX-Agents。測試結果顯示,所有 AI 實驗室均不及格,即便是最佳模型在面對真實專業人士提問時,正確率僅達四分之一。Mercor 執行長佛迪指出,模型最大的障礙在於跨領域資訊追蹤,這正是人類知識工作者日常運作的核心。測試環境模擬了 Slack 與 Google Drive 等多工具協作的真實情境,許多代理型 AI 在此類多領域推理上表現不穩。 測試題目源自 Mercor 專家市場,涵蓋複雜的法律合規評估,例如歐盟生產停擺期間資料外洩是否符合特定隱私條款,這類問題連部分人類專家亦可能感到困難。OpenAI 的 GDPval 基準測試廣泛知識,而 APEX-Agents 則聚焦高價值專業領域的持續任務執行,更能反映自動化潛力。在參與測試的模型中,Gemini 3 Flash 表現最佳,一問一答準確率為 24%,緊隨其後的是 GPT-5.2 達 23%,其餘如 Opus 4.5、Gemini 3 Pro 及 GPT-5 均約為 18%。佛迪認為,目前 AI 表現猶如僅能答對四分之一的實習生,但隨著基準公開,業界預期未來數月內將看到顯著進步,從去年的五至十 percent 提升至更高水準。