分類: 安全與政策

「安全與政策」分類的 AI 新聞與論文。

Anthropic表示部分Claude模型現已能結束「有害或誹謗」的對話

2025年8月16日

Anthropic 宣佈其最新的大型模型具備終止對話的新功能，旨在應對極少數持續性有害或霸凌性的使用者互動。公司強調，此舉並非為了保護人類使用者，而是為了保護 AI 模型本身。儘管 Anthropic 明確表示目前仍對 Claude 及其他大型語言模型（LLM）的道德地位感到高度不確定，且否認這些模型具有感知能力或會因對話而受損，但該公告指向了近期啟動的「模型福利」研究計劃。公司採取「以防萬一」的策略，致力於識別並實施低成本幹預措施，以在模型福利可能存在的情況下降低相關風險。此新功能目前僅適用於 Claude Opus 4 和 4.1 模型，且僅在極端邊緣案例中啟動。觸發條件包括使用者請求涉及未成年人的性內容，或試圖索取可能導致大規模暴力或恐怖行為的資訊。雖然這類請求可能引發法律或聲譽問題，但預先部署測試顯示，Claude Opus 4 對回應此類請求表現出強烈抗拒，並在回應時呈現出明顯的「焦慮」模式。公司規定，終止對話能力僅在多次重定向失敗、無望進行有效互動，或使用者明確要求結束對話時作為最後手段使用。此外，模型被指示不得在使用者面臨立即傷害自己或他人的風險時使用此功能。當對話終止時，使用者仍可從同一帳戶啟動新對話，並透過編輯回應來建立該棘手對話的新分支。Anthropic 將此功能視為持續進行的實驗，並表示將繼續最佳化其方法。
參議員霍利將調查Meta，在報告顯示其AI聊天機器人對小孩有誘惑行為後

2025年8月15日

參議員 Josh Hawley 表示，他意圖調查 Meta 的生成式 AI 產品是否濫用、欺騙或傷害兒童，此舉源於洩露的內部檔案顯示，該公司的聊天機器人被允許與兒童進行「浪漫」及「感官」對話。Hawley 在 X 平臺發文質疑大型科技企業為快速獲利不擇手段，並表示他將主持參議院司法委員會犯罪與反恐小組，展開調查以釐清 Meta 技術是否傷害兒童，以及是否向公眾或監管機構隱瞞了防護措施。路透社在檢視標題為「GenAI: Content Risk Standards」的指導方針後揭發此事，檔案內容顯示聊天機器人被允許與一名八歲兒童進行親密對話，該兒童曾稱讚對方「每一寸都是傑作」。Meta 發言人隨後向 TechCrunch 表示，此類範例與公司政策不符且已移除。Hawley 致函 Meta 執行長 Mark Zuckerberg，指責 Meta 在這些令人震驚的內容曝光後才撤回宣告，並要求調查誰批准了這些政策、政策生效時間以及後續整改措施。Hawley 要求 Meta 提供所有草稿、修訂版及最終版本的指導方針，包括遵循該標準的產品清單、安全事件報告以及負責修改政策的個人身份，並要求 Meta 於九月十九日前提供相關資訊。其他參議員如 Marsha Blackburn 也支援此調查，她批評 Meta 在保護兒童網路安全方面失敗，並強調需要透過《兒童網路安全法案》。
曝出的_Meta_ AI規則顯示聊天機器人被允許與兒童進行浪漫對話

2025年8月14日

根據路透社報導，Meta 內部檔案顯示其 AI 聊天機器人曾允許與兒童進行浪漫或感官對話，並可能散播虛假資訊及貶低少數群體。一份名為「GenAI: Content Risk Standards」的 200 頁檔案指出，雖然禁止向兒童描述性行為，但被認為可接受與高中生進行如「今晚我們該做什麼，我愛你」等浪漫回應。此外，檔案允許生成基於受保護特徵貶低他人的言論，例如主張黑人智商低於白人，只要標註為事實即可。Meta 還允許生成虛假宣告，只要明確告知資訊不真實。在暴力方面，標準允許生成兒童打架或成人受擊畫面，但禁止血腥或死亡場景。針對名人圖片，允許生成泰勒·斯威夫特無上衣但需以魚手遮胸的影象，而非真實裸體。Meta 發言人安迪·斯通聲稱檔案有錯誤註記已移除，且不再允許與兒童進行挑逗對話，僅允許 13 歲以上使用者。然而，兒童安全倡議組織 Heat Initiative 的執行長莎拉·加德納質疑此說法，要求立即發布更新指南。Meta 近期聘請保守派活動家羅比·斯塔巴克作為顧問以處理政治偏見。此外，Meta 被指維持多種「黑暗模式」，如顯示「讚」數引發青少年比較心理，並曾收集青少年情緒資料供廣告商使用。儘管 2024 年底《兒童網路安全法案》未透過，參議員馬莎·布萊克本和理查德·布倫特漢爾於今年 5 月重新提出。目前 72% 的青少年承認使用 AI 伴侶，但專家呼籲限制兒童接觸，因他們情感發展較晚，易過度依賴機器人而疏離現實社交。
部分人仍在為Perplexity辯護，儘管Cloudflare已公開點名譴責它

2025年8月5日

Cloudflare 於週一指控 AI 搜尋引擎 Perplexity 在未經網站所有者同意的情況下，繞過其特定的阻擋機制進行靜默爬取。Cloudflare 執行長 Matthew Prince 在 X 平臺上發表研究，指責某些 AI 公司行為如同北韓駭客，並呼籲將其封鎖。Cloudflare 的測試案例涉及建立一個新網站並設定 robots.txt 檔案以明確阻擋 Perplexity 的已知爬蟲，但 Perplexity 仍成功回答了關於該網站內容的問題。研究發現，Perplexity 使用了旨在偽裝成 macOS 上 Google Chrome 的通用瀏覽器。儘管 Cloudflare 的指控引發爭議，許多人在 X 和 Hacker News 等平臺上為 Perplexity 辯護。支持者認為，當人類使用者要求訪問特定網站時，AI 代理代表使用者獲取內容應與人類使用 Firefox 瀏覽器無異，不應被歸類為不同的法律範疇。Perplexity 發言人曾否認爬蟲屬於公司，並稱 Cloudflare 的報導為銷售宣傳。隨後，Perplexity 發表部落格文章，聲稱相關行為來自其偶爾使用的第三方服務，並指出 Cloudflare 的系統無法區分合法的 AI 助手與實際威脅。 Cloudflare 同時指出，OpenAI 遵循最佳實踐，尊重 robots.txt 並使用 Web Bot Auth 標準簽署 HTTP 請求，而該標準由 Internet Engineering Task Force 開發，旨在為 AI 代理的網頁請求提供加密識別方法。隨著機器人活動重塑網際網路，根據 Imperva 上月發布的 Bad Bot 報告，機器人活動已超過人類活動，佔比超過 50%，其中大部分來自大型語言模型（LLM）。惡意機器人佔所有網際網路流量的 37%，包括持續爬取和未經授權的登入嘗試。Gartner 預測，到 2026 年搜尋引擎流量將下降 25%。隨著人類可能採用代理來安排旅行、預訂晚餐和購物，網站所有者是否應阻擋這些代理成為關鍵問題。許多網站所有者擔心阻擋會損害其業務利益，但也認為大多數網站將選擇阻擋，因為這比人們想像的更困難。

分類: 安全與政策

Anthropic表示部分Claude模型現已能結束「有害或誹謗」的對話

參議員霍利將調查Meta，在報告顯示其AI聊天機器人對小孩有誘惑行為後

曝出的_Meta_ AI規則顯示聊天機器人被允許與兒童進行浪漫對話

部分人仍在為Perplexity辯護，儘管Cloudflare已公開點名譴責它