OpenAI 在強化其 Atlas AI 瀏覽器以抵禦網路攻擊的同時,承認提示注入(prompt injection)這種攻擊手法難以徹底根除。這種攻擊能透過網頁或郵件隱藏惡意指令,誘導 AI 代理人執行不當操作。OpenAI 於週一發表部落格文章指出,類似網路詐騙與社會工程學的提示注入,不太可能完全解決,並承認 ChatGPT Atlas 的「代理人模式」擴大了安全威脅面。該瀏覽器於十月推出後,安全研究者迅速發現僅需幾個字即可改變瀏覽器行為,Perplexity 等競爭對手也指出間接提示注入是系統性挑戰。英國國家網路安全中心亦警告,針對生成式 AI 的提示注入攻擊可能無法完全緩解,建議降低風險而非試圖完全阻擋。
OpenAI 將此視為長期挑戰,採取主動快速回應迴圈,利用內部紅隊發現新攻擊策略。其獨特解法為訓練基於大型語言模型的自動化攻擊者,透過強化學習模擬駭客行為,在模擬環境中測試並最佳化攻擊,以比真實攻擊者更快發現 AI 內部推理漏洞。演示中,自動化攻擊者成功將惡意郵件置入收件箱,使 AI 代理人傳送辭職訊息而非休假回覆,但更新後的安全機制能成功偵測並標記此嘗試。OpenAI 強調依賴大規模測試與快速修復週期來加固系統,並建議使用者限制代理人許可權、提供具體指令而非開放完整存取,以及要求確認請求。
安全研究員 Rami McCarthy 指出,風險取決於自主權與存取權的乘積,代理人瀏覽器處於高風險區域。他質疑其投資回報率,認為對於大多數日常用途,其高風險(如存取敏感郵件與支付資訊)尚未帶來足夠價值。儘管 OpenAI 視保護使用者為首要任務,但業界對高風險代理瀏覽器的實用性仍存懷疑,認為權衡取捨在當前仍非常真實。