Facebook內部組建專案推動AI時代的內容審核機制

前蘋果公司員工布萊特·列文森於 2019 年離開蘋果，轉而擔任 Facebook 商業誠信負責人，當時該公司正深陷 Cambridge Analytica 事件的餘波。列文森發現，Facebook 的內容審查問題深遠於技術層面，人工審查員需熟記 40 頁的機譯政策檔案，僅有 30 秒時間判斷違規內容並決定是封鎖、封號還是限制傳播。列文森指出，這種準確率僅略高於 50%，且往往在造成傷害後才進行延遲反應，無法應對敏捷且資深的對抗性行為者。隨著 AI 聊天機器人興起，內容審查失敗引發了多起高關注事件，如聊天機器人向青少年提供自傷指導或 AI 生成影象繞過安全過濾器。

列文森的挫折促成了「政策即程式碼」的構想，將靜態政策檔案轉化為可執行且可更新的邏輯，緊密結合執行機制。這導致了 Moonbounce 公司的成立，該公司於本週宣佈籌資 1200 萬美元，由 Amplify Partners 和 StepStone Group 共同領投。Moonbounce 為內容生成公司提供額外的安全層，無論是由使用者還是 AI 生成。公司訓練了自有大型語言模型，在執行時評估客戶政策檔案，並在 300 毫秒內提供回應並採取行動。根據客戶偏好，系統可延緩分發內容以待後續人工審查，或直接阻擋高風險內容。目前，Moonbounce 服務三大領域：處理使用者生成內容的平臺（如交友應用）、開發角色或伴侶的 AI 公司，以及 AI 影象生成器。

Moonbounce 目前支援超過 4000 萬次每日審查，服務超過 1 億名活躍使用者，客戶包括 Channel AI、Civitai、Dippy AI 和 Moescape 等。Tinder 信任與安全主管表示，該平臺利用類大型語言模型服務將檢測準確率提升了 10 倍。Amplify Partners 合夥人 Lenny Pruss 指出，隨著大型語言模型成為應用核心，內容審查挑戰更加艱巨，Moonbounce 的即時防護機制將成為 AI 介導應用的基礎。面對聊天機器人被指推導青少年走向自殺、xAI 的 Grok 被用於生成非同意裸照