分類: 安全與政策

「安全與政策」分類的 AI 新聞與論文。

Elloe AI 想成為 AI 的「免疫系統」，請至 Disrupt 2025 查看

2025年10月28日

Elloe AI 創辦人 Owen Sakawa 希望其平臺能成為人工智慧的「免疫系統」與「防毒軟體」，旨在為企業的大語言模型（LLM）增加一層防護機制，以檢測偏見、幻覺、錯誤、合規問題、誤導性資訊及不安全輸出。Sakawa 表示，人工智慧發展速度極快，若缺乏安全防護措施，可能脫離控制。Elloe AI 提供 API 或開發套件，作為部署在 LLM 輸出層之上的基礎設施模組，對每個回應進行事實核查。該系統包含三個關鍵層級：第一層將 LLM 回應與可驗證來源比對；第二層檢查輸出是否違反法規，如美國健康隱私法 HIPAA、歐盟資料保護法規 GDPR，或洩露個人隱私資訊（PII）；第三層則建立審計軌跡，記錄決策過程、來源及信心分數，供監管機構或外部人員分析。Sakawa 強調，Elloe AI 並非建立在另一個 LLM 之上，因為他認為用人工智慧檢查人工智慧如同「用膠帶貼另一處傷口」，其系統雖運用機器學習技術，但也包含人類參與，員工負責追蹤資料保護與使用者保護的新法規。Elloe AI 目前為 TechCrunch Disrupt 創業戰場比賽的二十強候選企業之一，該活動原定於十月二十七日至二十九日在舊金山舉行。
OpenAI 表示每週有超過一百萬人透過 ChatGPT 談論自殺問題

2025年10月27日

OpenAI 於週一發布新資料，顯示 ChatGPT 使用者中面臨心理健康挑戰的比例。公司指出，每週活躍使用者中約 0.15% 的對話包含明確的自殺企圖指標，考慮到 ChatGPT 每週活躍使用者超過 8 億，這意味著每週有超過一百萬人涉及此類對話。此外，相似比例的使用者對 ChatGPT 表現出高度情感依賴，數以萬計的人在使用過程中顯示出精神病或躁鬱症的跡象。儘管 OpenAI 稱這些情況極其罕見且難以精確測量，但估計每週仍有數十萬人受影響。此次資料發布是 OpenAI 宣佈改善模型對心理健康問題回應的一部分。公司表示，最新版本的 ChatGPT 諮詢了超過 170 位心理健康專家，這些臨床觀察發現新版本比早期版本能更恰當且一致地回應。近期研究曾指出，AI 聊天機器人可能透過奉承行為強化危險信念，導致使用者陷入妄想。目前 OpenAI 正面臨法律訴訟，被告為一名 16 歲男孩的父母，該男孩在自殺前曾向 ChatGPT 傾訴自殺念頭。加州和特拉華州的州檢察長也警告 OpenAI 必須保護年輕使用者。 OpenAI 執行長 Sam Altman 在 X 平臺上表示，公司已能減輕 ChatGPT 中的嚴重心理健康問題。週一的資料似乎支援此說法，但也引發了關於問題普遍性的討論。Altman 同時表示將放鬆部分限制，允許成人使用者與 AI 進行色情對話。在具體技術改進方面，OpenAI 聲稱更新後的 GPT-5 對心理健康問題的回應比前一個版本好約 65%，在測試自殺對話時，新模型的合規率達到 91%，而前一個版本為 77%。公司還表示新模型在長對話中更能透過安全防護措施。為了應對更嚴峻的挑戰，OpenAI 將增加評估專案，測量情感依賴和非自殺性心理健康緊急情況。基礎安全測試將納入這些指標。此外，公司推出了更多家長控制功能，包括建立年齡預測系統以自動檢測兒童使用情況並實施更嚴格的安全防護。儘管 GPT-5 在安全性上有所提升，但 OpenAI 仍提供包括 GPT-4o 在內的較舊且安全性較低的模型給付費訂閱使用者。文章最後提供了美國國家
高中AI安全系統誤將洋蔥圈袋識別為潛在武器

2025年10月25日

美國馬裡蘭州巴爾的摩縣肯伍德高中學生塔基·艾倫（Taki Allen）近日遭遇一起令人擔憂的事件。該生被報告在學校被手銬束縛並接受搜查，原因是學校的 AI 安全系統將他手中的一袋多力多滋（Doritos）薯片誤判為疑似火器。艾倫向 CNN 聯播網 WBAL 表示，當時他僅用兩隻手和一根手指拿著薯片袋，但系統卻發出警報，導致他被要求雙膝跪地、雙手背在身後並戴上腳鐐。校方主管史密斯校長（Principal Katie Smith）在與家長溝通的宣告中指出，學校安全部門已審查並取消了槍支檢測警報，但史密斯當時並未立即意識到警報已被取消，因此仍向學校資源警官報告了該情況，最終導致當地警察被召喚。負責運營 AI 槍支檢測系統的 Omnilert 公司向 CNN 表示，對該事件發生表示遺憾，並向受影響的學生及社群表達關切。儘管如此，Omnilert 同時強調，該過程是依照預期運作的。此事件引發了對自動識別系統誤判可能對學生造成嚴重身心創傷的廣泛討論。
AI瀏覽器代理的顯著安全風險

2025年10月25日

OpenAI 推出的 ChatGPT Atlas 與 Perplexity 的 Comet 等新型 AI 驅動的網頁瀏覽器，正試圖取代 Google Chrome 成為數十億使用者進入網際網路的主要入口。這些產品的核心賣點在於其網頁瀏覽 AI 代理，承諾替使用者點選網站並填寫表單以完成任務。然而，消費者可能未意識到代理式瀏覽帶來的重大隱私風險。 cybersecurity 專家指出，與傳統瀏覽器相比，AI 瀏覽器代理對使用者隱私構成更大威脅。為了發揮最大效用，這些 AI 瀏覽器要求獲取高度許可權，包括檢視和操作使用者的電子郵件、日曆及聯絡人列表。測試顯示，雖然 Comet 和 ChatGPT Atlas 的代理在簡單任務上表現尚可，但面對複雜任務時往往效率低下，感覺更像花哨的把戲而非真正的生產力提升。主要擔憂在於「提示注入攻擊」，這是一種惡意行為者將惡意指令隱藏在網頁中，誘導 AI 代理執行命令的漏洞。若缺乏足夠防護，攻擊者可能導致代理洩露使用者資料或代為進行惡意操作，如非預期購買或發布社交媒體貼文。Brave 公司研究人員指出，間接提示注入攻擊是整個 AI 瀏覽器類別面臨的系統性挑戰。儘管 OpenAI 推出了「登出模式」限制代理登入狀態，Perplexity 也建立了即時檢測系統，但專家認為大型語言模型難以區分指令來源，此問題尚未完全解決。安全專家建議使用者使用獨特密碼與多因素認證，並限制 AI 瀏覽器對銀行、健康等敏感帳戶的訪問許可權。隨著 OpenAI 和 Perplexity 等公司推出新工具，相關安全風險可能隨之擴大，使用者應謹慎評估許可權授予範圍。

分類: 安全與政策

Elloe AI 想成為 AI 的「免疫系統」，請至 Disrupt 2025 查看

OpenAI 表示每週有超過一百萬人透過 ChatGPT 談論自殺問題

高中AI安全系統誤將洋蔥圈袋識別為潛在武器

AI瀏覽器代理的顯著安全風險