分類: 代理 AI
「代理 AI」分類的 AI 新聞與論文。
-
Google 說明 Chrome 代理人功能的安全措施
隨著瀏覽器開始實驗代理功能,這些功能能代表使用者執行預訂門票或購物等行動,但也伴隨資料或金錢損失的安全風險。Google 在 Chrome 中詳細介紹了其利用觀察模型與使用者同意機制來處理安全的方法,並預告這些代理功能將於九月預覽,未來幾個月內逐步推出。Google 使用多個模型來監控代理行動,其中建立了一個使用 Gemini 構建的使用者對齊評論員(User Alignment Critic),該模型會審查規劃模型為特定任務構建的行動專案。若評論員認為規劃任務未達成使用者目標,會要求規劃模型重新思考策略。值得注意的是,評論員模型僅能檢視建議行動的後設資料,無法接觸實際網頁內容。 為了防止代理訪問被禁止或不可信的網站,Google 採用代理源集(Agent Origin Sets)機制,限制模型僅能訪問只讀源和可寫源。只讀源允許 Gemini 消耗內容,例如購物網站中與任務相關的清單,但不包括廣告。代理僅被允許點選或輸入頁面中的特定 iframe。這種區分確保僅有限源集的資料可供代理使用,且僅能傳遞至可寫源,從而限制跨源資料洩漏的威脅向量,並讓瀏覽器有能力阻止將不可讀資料傳送給模型。此外,Google 透過另一觀察模型調查 URL 以監控頁面導航,防止導航至有害的模型生成網址。 對於涉及銀行或醫療資料等敏感任務,Google 將決策權交還使用者。當代理嘗試導航至敏感網站時,會先詢問使用者;對於需要登入的網站,則詢問使用者是否允許 Chrome 使用密碼管理員。Google 強調代理模型不會接觸密碼資料,且在進行購買或傳送訊息等行動前也會先詢問使用者。除了上述措施,Google 還部署了提示注入分類器以阻止不當行動,並測試代理功能對抗研究人員建立的攻擊。其他 AI 瀏覽器廠商也關注安全問題,Perplexity 於本月早些時候發布了新的開源內容檢測模型,用於防止針對代理的提示注入攻擊。
-
亞馬遜預覽三款AI代理,包括能連續數日自主編程的「Kiro
亞馬遜雲服務(AWS)於週二宣佈推出三款名為「邊界代理」的新 AI 代理,其中包括一個能學習使用者工作習慣並獨立運作數天的代理。這些代理分別負責編寫程式碼、安全流程如程式碼審查,以及自動化 DevOps 任務,例如在推送新程式碼時預防事故。目前已有預覽版本可供使用。AWS 最大的宣稱是其名為「Kiro 自主代理」的產品,該代理基於 AWS 七月宣佈的現有 AI 編碼工具 Kiro 開發。雖然現有工具可用於原型開發,但旨在產生可上線的營運程式碼。為了確保程式碼可靠,AI 必須遵循公司的編碼規範,Kiro 透過「規範驅動開發」概念實現此目標,在編碼過程中由人類指導、確認或糾正其假設,從而建立規範。Kiro 自主代理透過掃描現有程式碼等方式觀察團隊在各工具中的工作模式,隨後即可獨立運作。AWS 執行長 Matt Garman 在週二 AWS re:Invent 大會上表示,使用者只需將複雜任務指派給代理,它便能獨立完成工作,並隨著時間推移加深對程式碼、產品及團隊標準的理解。Kiro 能維持跨會話的持續上下文,不會因記憶體限制而遺忘任務,因此可接受任務並獨立工作數小時甚至數天,僅需極少的人類幹預。Garman 舉例說明,Kiro 可一次性接收指令修復影響十五個企業軟體元件的關鍵程式碼,無需逐一驗證。為了自動化編碼任務,AWS 還開發了 AWS Security Agent,能獨立識別編碼中的安全問題、進行測試並提供修正建議;DevOps Agent 則負責自動測試新程式碼的效能問題或與其他軟體、硬體或雲端設定相容性。儘管 OpenAI 上月也宣稱其 GPT-5.1-Codex-Max 模型支援長達二十四小時的連續執行,但專家指出,大型語言模型仍面臨幻覺和準確性問題,導致開發者需像「保姆」般監督。因此,在代理能真正成為同事之前,上下文視窗仍需擴大,而 AWS 的技術是邁向這一目標的重要一步。
-
AWS 公告推出 AI 代理人建構工具的新功能
亞馬遜雲服務(AWS)在年度 re:Invent 大會上宣佈擴充其 AI 代理平臺 Amazon Bedrock AgentCore,旨在讓企業更容易構建與監控 AI 代理。新推出的功能包括代理邊界管理、代理記憶能力以及代理評估功能。其中,「Policy」功能允許使用者透過自然語言設定代理互動的邊界,這些邊界與 AgentCore Gateway 整合,可自動檢查代理行動並阻擋違反控制措施的行為。開發者能透過此功能設定存取控制,限制特定內部資料或第三方應用(如 Salesforce 或 Slack)。此外,系統可設定自動退款上限為 100 美元,超過此金額則必須引入人類介入。 AWS 還推出了 AgentCore Evaluations,這是一套包含 13 個預建評估系統的套件,用於監控代理的正確性、安全性及工具選擇準確性等指標,協助開發者提前建立自定義評估功能。同時,平臺新增 AgentCore Memory 功能,使代理能建立使用者長期資訊日誌(如航班時間或飯店偏好),並以此指導未來決策。AgentCore 副總裁 David Richardson 表示,這些功能有助於解決部署代理時人們最大的擔憂,並能應對快速變化的市場趨勢。他認為結合模型推理能力與實際工具操作的模式具有可持續性,儘管具體實現方式可能會隨趨勢改變,但 AWS 已準備好應對這些變化。
-
Google 的 SIMA 2 代理使用 Gemini 在虛擬世界中進行推理與行動
Google DeepMind 於週四發布了 SIMA 2 的研究預覽,這是其通用 AI 代理的下一代產品。SIMA 2 整合了 Gemini 大型語言模型的語言與推理能力,使其不僅能遵循指令,更能理解並與環境互動。與許多 DeepMind 專案如 AlphaFold 類似,SIMA 1 最初是透過數百小時的電子遊戲資料訓練而成,旨在像人類一樣學習玩多種 3D 遊戲,包括未受過訓練的遊戲。SIMA 1 於 2024 年 3 月亮相,能在廣泛的虛擬環境中遵循基本指令,但其完成複雜任務的成功率僅為 31%,而人類為 71%。DeepMind 研究高階科學家 Joe Marino 表示,SIMA 2 在能力上相比 SIMA 1 是巨大的進步,它是一個更通用的代理,能在以前未見過的環境中完成複雜任務,並且是一個自我改進的代理,能根據自身經驗進行自我改進,這一步邁向更通用的機器人及 AGI 系統。 SIMA 2 的效能是 SIMA 1 的兩倍,由 Gemini 2.5 flash-lite 模型驅動。AGI 指人工通用智慧,DeepMind 定義為具備廣泛智力任務能力、能學習新技能並在不同領域泛化知識的系統。DeepMind 的研究人員認為,與所謂的「具身代理」合作對於通用智慧至關重要。具身代理透過身體與物理或虛擬世界互動,觀察輸入並採取行動,類似機器人或人類;而非具身代理可能僅用於處理日曆、筆記或執行程式碼。資深研究科學家 Jane Wang 指出,SIMA 2 遠超遊戲玩法,它需要理解正在發生的事情,理解使用者的要求,並以常識方式回應,這相當困難。 SIMA 2 在《No Man's Sky》中展示了其能力,代理描述了岩石星球表面的環境,並透過識別和互動來確定下一步行動。它還使用 Gemini 進行內部推理,例如當被要求走到像熟透番茄一樣顏色的房子時,代理展示了其思考過程:熟透的番茄是紅色的,因此應該去紅色的房子,然後找到並接近它。由於由 Gemini 驅動,SIMA 2 還能根據表情符號遵循指令,例如輸入樹樵刀和樹木的符號,代理