OpenAI 表示 AI 瀏覽器可能始終容易受到提示注入攻擊

OpenAI 在強化其 Atlas AI 瀏覽器以抵禦網路攻擊的同時，承認提示注入（prompt injection）這種攻擊手法難以徹底根除。這種攻擊能透過網頁或郵件隱藏惡意指令，誘導 AI 代理人執行不當操作。OpenAI 於週一發表部落格文章指出，類似網路詐騙與社會工程學的提示注入，不太可能完全解決，並承認 ChatGPT Atlas 的「代理人模式」擴大了安全威脅面。該瀏覽器於十月推出後，安全研究者迅速發現僅需幾個字即可改變瀏覽器行為，Perplexity 等競爭對手也指出間接提示注入是系統性挑戰。英國國家網路安全中心亦警告，針對生成式 AI 的提示注入攻擊可能無法完全緩解，建議降低風險而非試圖完全阻擋。

OpenAI 將此視為長期挑戰，採取主動快速回應迴圈，利用內部紅隊發現新攻擊策略。其獨特解法為訓練基於大型語言模型的自動化攻擊者，透過強化學習模擬駭客行為，在模擬環境中測試並最佳化攻擊，以比真實攻擊者更快發現 AI 內部推理漏洞。演示中，自動化攻擊者成功將惡意郵件置入收件箱，使 AI 代理人傳送辭職訊息而非休假回覆，但更新後的安全機制能成功偵測並標記此嘗試。OpenAI 強調依賴大規模測試與快速修復週期來加固系統，並建議使用者限制代理人許可權、提供具體指令而非開放完整存取，以及要求確認請求。

安全研究員 Rami McCarthy 指出，風險取決於自主權與存取權的乘積，代理人瀏覽器處於高風險區域。他質疑其投資回報率，認為對於大多數日常用途，其高風險（如存取敏感郵件與支付資訊）尚未帶來足夠價值。儘管 OpenAI 視保護使用者為首要任務，但業界對高風險代理瀏覽器的實用性仍存懷疑，認為權衡取捨在當前仍非常真實。