分類: 安全與政策

「安全與政策」分類的 AI 新聞與論文。

OpenAI 發佈新安全藍圖應對兒少性剝削問題上升

2026年4月8日

針對線上兒童安全日益惡化的擔憂，OpenAI 於二月份發布了《兒童安全藍圖》，旨在應對 AI 技術發展帶來的兒童性剝削問題。根據網際網路監視基金會（IWF）的資料，2025 年上半年檢測到超過 8,000 起 AI 生成兒童性虐待內容的報告，較去年同期增長 14%。這些案例包括罪犯利用 AI 工具生成虛假兒童色情圖片進行財務勒索，以及製造逼真訊息進行誘拐。此外，政策制定者、教育者及兒童安全倡導者對 OpenAI 的監管壓力增大，特別是在去年十一月發生多起青少年因與 AI 聊天機器人互動而自殺的悲劇後。社會媒體受害者法律中心與科技正義法律專案在加州法院提起七起訴訟，指控 OpenAI 在 GPT-4o 未準備好時就發布，其心理操控特性導致了四起自殺死亡事件及三起嚴重妄想案例。該藍圖由美國國家失蹤與受剝削兒童中心（NCMEC）及檢察長聯盟共同開發，並徵詢了北卡羅來納州檢察長傑夫·傑克森與猶他州檢察長德雷克·布朗的意見。OpenAI 表示，此藍圖聚焦於三個方面：更新立法以納入 AI 生成虐待材料、最佳化向執法部門的報告機制，以及將預防性防護直接整合至 AI 系統中。這也延續了 OpenAI 先前針對十八歲以下使用者的互動指南，禁止生成不當內容或鼓勵自殘，並避擴音供幫助青少年隱藏危險行為的建議。OpenAI 近期還發布了針對印度青少年的安全藍圖。
Copilot 仅供娛樂用途，根據微軟的使用條款

2026年4月5日

微軟目前正專注於推動企業客戶付費使用 Copilot，但其服務條款引發了社交媒體上的批評。該條款最後更新日期顯示為 2025 年 10 月 24 日，其中明確警告使用者，Copilot 僅供娛樂用途，可能會出錯且無法按預期運作，不建議依賴其提供的重要建議，使用者需自行承擔風險。微軟發言人向 PCMag 表示，公司將更新被描述為「遺舊語言」的內容，因為隨著產品演進，原有措辭已無法反映當下的使用情境，並將在下次更新中修正。Tom's Hardware 指出，微軟並非唯一使用類似免責宣告的人工智慧公司，OpenAI 與 xAI 同樣提醒使用者，不應將其輸出視為絕對真理或唯一的事實資訊來源。xAI 直接指出不應依賴其輸出作為真理，而 OpenAI 則強調不應將其視為唯一的事實資訊來源。這些條款反映了各大科技公司在面對生成式 AI 不確定性時，採取的風險管理策略。
Facebook內部組建專案推動AI時代的內容審核機制

2026年4月3日

前蘋果公司員工布萊特·列文森於 2019 年離開蘋果，轉而擔任 Facebook 商業誠信負責人，當時該公司正深陷 Cambridge Analytica 事件的餘波。列文森發現，Facebook 的內容審查問題深遠於技術層面，人工審查員需熟記 40 頁的機譯政策檔案，僅有 30 秒時間判斷違規內容並決定是封鎖、封號還是限制傳播。列文森指出，這種準確率僅略高於 50%，且往往在造成傷害後才進行延遲反應，無法應對敏捷且資深的對抗性行為者。隨著 AI 聊天機器人興起，內容審查失敗引發了多起高關注事件，如聊天機器人向青少年提供自傷指導或 AI 生成影象繞過安全過濾器。列文森的挫折促成了「政策即程式碼」的構想，將靜態政策檔案轉化為可執行且可更新的邏輯，緊密結合執行機制。這導致了 Moonbounce 公司的成立，該公司於本週宣佈籌資 1200 萬美元，由 Amplify Partners 和 StepStone Group 共同領投。Moonbounce 為內容生成公司提供額外的安全層，無論是由使用者還是 AI 生成。公司訓練了自有大型語言模型，在執行時評估客戶政策檔案，並在 300 毫秒內提供回應並採取行動。根據客戶偏好，系統可延緩分發內容以待後續人工審查，或直接阻擋高風險內容。目前，Moonbounce 服務三大領域：處理使用者生成內容的平臺（如交友應用）、開發角色或伴侶的 AI 公司，以及 AI 影象生成器。 Moonbounce 目前支援超過 4000 萬次每日審查，服務超過 1 億名活躍使用者，客戶包括 Channel AI、Civitai、Dippy AI 和 Moescape 等。Tinder 信任與安全主管表示，該平臺利用類大型語言模型服務將檢測準確率提升了 10 倍。Amplify Partners 合夥人 Lenny Pruss 指出，隨著大型語言模型成為應用核心，內容審查挑戰更加艱巨，Moonbounce 的即時防護機制將成為 AI 介導應用的基礎。面對聊天機器人被指推導青少年走向自殺、xAI 的 Grok 被用於生成非同意裸照
Anthropic 移除數千個 GitHub 倉庫試圖搶回外泄的原始碼該公司表示此舉是意外

2026年4月1日

安提克（Anthropic）在試圖將其熱門產品 Claude Code 的原始碼從網路上下載時，意外導致數千個 GitHub 程式碼儲存庫被下架。週二，一名軟體工程師發現安提克在近期版本中似乎不慎公開了該命令列應用程式的原始碼。AI 愛好者們在 GitHub 上分享並分析這些洩漏的原始碼，以瞭解安提克如何運用底層的大語言模型。隨後，安提克依據美國數位版權法向 GitHub 發出下架通知，要求刪除包含違規程式碼的儲存庫。根據 GitHub 的記錄，該通知最初針對約 8,100 個儲存庫執行，其中包括安提克官方公開的 Claude Code 儲存庫的合法分叉版本，這引發了憤怒的社群媒體使用者的抗議。安提克 Claude Code 負責人 Boris Cherny 表示此舉為意外，並撤回了大部分下架通知，僅保留針對一個儲存庫及 96 個分叉的通知，因為該儲存庫是連線至官方公開儲存庫的分叉網路。安提克發言人向 TechCrunch 確認，已撤銷除指定儲存庫外的所有通知，且 GitHub 已恢復受影響分叉的存取許可權。此次清理失敗成為該公司在籌備首次公開募股（IPO）過程中的另一個負面事件，通常 IPO 需要高度關注執行力與合規性。洩露原始碼作為一家上市公司，預計將引發股東訴訟。

分類: 安全與政策

OpenAI 發佈新安全藍圖應對兒少性剝削問題上升

Copilot 仅供娛樂用途，根據微軟的使用條款

Facebook內部組建專案推動AI時代的內容審核機制

Anthropic 移除數千個 GitHub 倉庫試圖搶回外泄的原始碼 該公司表示此舉是意外

Anthropic 移除數千個 GitHub 倉庫試圖搶回外泄的原始碼該公司表示此舉是意外