分類: 代理 AI
「代理 AI」分類的 AI 新聞與論文。
-
Anthropic 發布一款可在 Chrome 裡居住的 Claude 人工智能代理
安提克(Anthropic)於週二宣佈推出基於其 Claude AI 模型的研究預覽版瀏覽器 AI 代理,名為「Claude for Chrome」。該功能將首先向 1,000 名訂閱安提克 Max 計劃的使用者開放,該計劃月費介於 100 至 200 美元之間,公司同時開放了候選名單供其他感興趣使用者加入。使用者透過在 Chrome 瀏覽器安裝擴充功能,可在側邊欄視窗與 Claude 對話,該視窗會維持瀏覽器中所有事件的上下文。使用者亦可授予 Claude 代理許可權,讓其執行瀏覽器操作並代為完成部分任務。 隨著瀏覽器成為 AI 實驗室的新戰場,各大公司正競相推出整合方案。Perplexity 近期推出了自有瀏覽器 Comet,其內建 AI 代理可協助使用者處理任務;OpenAI 據傳即將推出類似功能的 AI 驅動瀏覽器。同時,Google 已在數月前將 Gemini 整合至 Chrome。此競爭尤為緊迫,因 Google 面臨即將決案的壟斷訴訟,聯邦法官曾暗示可能強制 Google 出售 Chrome 瀏覽器。Perplexity 曾提出 345 億美元的自願收購要約,OpenAI 執行長 Sam Altman 也表示願意出資購買。 安提克在週二的部落格文章中警告,具備瀏覽器存取權的 AI 代理帶來新的安全風險。上週,Brave 安全團隊指出 Comet 瀏覽器代理可能易受間接提示注入攻擊,即網站隱藏程式碼可誘導代理執行惡意指令。Perplexity 通訊主管 Jesse Dwyer 證實 Brave 提出的漏洞已修復。安提克表示希望藉此研究預覽捕捉並解決新型安全風險,且公司已引入多項防禦措施。據稱,其介入將提示注入攻擊成功率從 23.6% 降至 11.2%。 針對安全防護,安提克建議使用者可在應用程式設定中限制 Claude 瀏覽器代理存取特定網站,並預設阻擋提供金融服務、成人內容及盜版內容的網站。此外,Claude 代理在執行高風險動作(如發布、購買或分享個人資料)前,將要求使用者授權。這是安提克首次推出可控制電腦螢幕的 AI 模型,2024 年 10 月曾推出類似功能,但當時測試顯示該模型速度
-
Google 的 AI 模式全球擴展,新增代理功能
Google 於週四宣佈將在全球範圍內擴充套件 AI Mode 功能,該功能允許使用者在搜尋引擎內直接提出複雜問題並進行跟進查詢以深入探討特定主題。此次擴充套件將 AI Mode 引入 180 個新的英語國家,此前該功能僅限於美國、英國和印度使用者使用。Google 計劃近期將此功能擴充套件至更多語言和地區。 在新增的代理功能方面,使用者現在可以使用 AI Mode 預訂餐廳,未來還將能預訂當地服務預約和活動門票。使用者可根據派對人數、日期、時間、地點和首選菜系等多個偏好要求晚餐預訂,AI Mode 將跨不同預訂平臺搜尋即時可用餐廳並提供精選選項列表。此新功能目前透過 Labs 實驗室的"AI Mode 中的代理功能”實驗向美國 Google AI Ultra 訂閱者推出,Ultra 是 Google 最高階別計劃,月費為 249.99 美元。 美國使用者在 AI Mode 實驗中還將看到根據個人偏好和興趣量身定做的搜尋結果,目前從餐飲相關主題開始。例如,當使用者搜尋"我只有一小時,需要快速午餐地點,有什麼建議嗎?"時,AI Mode 將利用過往對話、搜尋或點選記錄來提供更相關建議。若 AI Mode 推斷使用者喜歡義大利菜和戶外座位,則會推薦符合這些偏好的選項。使用者可在 Google 帳戶中調整個人化設定。 此外,AI Mode 現在允許使用者與他人分享和協作。新的"分享"按鈕讓使用者將 AI Mode 回應傳送給他人,使其能加入對話。Google 表示這在規劃旅行或生日派對等需要協作的場合非常有用。
-
新AI程式設計挑戰賽公布首輪結果 — 並非理想表現
非營利組織 Laude 學院於週三下午 5 點(太平洋時間)宣佈,由 Databricks 與 Perplexity 共同創辦人 Andy Konwinski 發起的 K Prize 多輪 AI 程式碼挑戰賽的首位得主已產生。這位來自巴西的提示工程師 Eduardo Rocha de Andrade 獲得了 50,000 美元的獎金。令人驚訝的是,他僅以 7.5% 的正確率答對測試題目便奪冠。Konwinski 表示,建立一個真正艱難的基準測試至關重要,並指出若大型實驗室投入最大模型,分數將截然不同。K Prize 採用離線執行且計算資源受限的方式,旨在讓小型與開放模型更具優勢,並承諾一百萬美元獎勵給能在測試中獲得超過 90% 分數的首個開放原始碼模型。 與常見的 SWE-Bench 系統類似,K Prize 利用 GitHub 上的標記問題來測試模型處理真實世界程式碼問題的能力,但 K Prize 被設計為「無汙染版本的 SWE-Bench」。為了防止模型針對特定基準進行訓練,測試題目僅使用 3 月 12 日之後標記的 GitHub 問題。此結果與 SWE-Bench 形成鮮明對比,後者較易的「驗證」測試頂分達 75%,較難的「完整」測試頂分為 34%。Princeton 大學的研究員 Sayash Kapoor 也支援建立新測試以解決 AI 評估問題,指出缺乏實驗難以判斷問題是否來自汙染或針對排行榜的最佳化。Konwinski 強調,若無法在無汙染的 SWE-Bench 上獲得超過 10% 的成績,這便是對 AI 產業現實的一次重要檢查。
-
此創業公司認為電子郵件可能是實用AI代理的關鍵
AI 公司正將智慧體視為下一個職場變革者,但專家指出其尚未成熟。現有智慧體常面臨決策困難、頻繁幻覺、無法協作、缺乏保密意識及系統整合不良等問題。業界先驅安德烈·卡帕恰和阿里·戈德西認為,如同自主車輛的部署,人類必須參與其中,智慧體方能成功。新創公司 Mixus 推出其 AI 智慧體平臺,旨在將人類保留在工作流程中,並允許使用者透過電子郵件或 Slack 直接與智慧體互動。Mixus 共同創辦人艾略特·卡茨表示,他們希望讓智慧體更普及,因為大多數職場人員目前都在使用電子郵件。 Mixus 於 2024 年底在斯坦福大學推出測試版,已籌得 260 萬美元預種子資金,並獲得包括服裝連鎖店 Rainbow Shops 在內的客戶。其最大賣點是易用性,使用者可透過文字提示在平臺內建立智慧體,或傳送指令至 agent@mixus.com,由 Mixus 直接在收件箱中建立、執行及管理單一或多步驟智慧體。例如,客戶支援經理可設定智慧體搜尋 Jira 專案中的待辦事項、生成逾期任務報告並草擬郵件,經確認後再傳送。 Mixus 允許人類在必要時介入,如要求智慧體在特定步驟尋求監督,或將同事拉入工作流程。這與目前市場上多為單一使用者的模型不同,Notion AI 和 Slack 雖支援協作空間,卻無法讓 AI 在實時中管理團隊間的對話與任務。Mixus 的核心功能之一是記憶能力,透過「空間」概念讓每個團隊擁有共享記憶,儲存檔案、對話、提示及智慧體,此功能目前 ChatGPT 和 Claude 的企業版尚未支援跨使用者的共享智慧體記憶。 Mixus 智慧體基於 Anthropic 的 Claude 4 和 OpenAI 的 o3 模型,具備自主瀏覽網頁的能力,可整合 Gmail 與 Jira 等工具,並能自主識別組織內任務負責人。若產品運作如演示般可靠,Mixus 可能成為一種不知疲倦的數位同事,比人類更快地處理郵件與任務。