前蘋果公司員工布萊特·列文森於 2019 年離開蘋果,轉而擔任 Facebook 商業誠信負責人,當時該公司正深陷 Cambridge Analytica 事件的餘波。列文森發現,Facebook 的內容審查問題深遠於技術層面,人工審查員需熟記 40 頁的機譯政策檔案,僅有 30 秒時間判斷違規內容並決定是封鎖、封號還是限制傳播。列文森指出,這種準確率僅略高於 50%,且往往在造成傷害後才進行延遲反應,無法應對敏捷且資深的對抗性行為者。隨著 AI 聊天機器人興起,內容審查失敗引發了多起高關注事件,如聊天機器人向青少年提供自傷指導或 AI 生成影象繞過安全過濾器。
列文森的挫折促成了「政策即程式碼」的構想,將靜態政策檔案轉化為可執行且可更新的邏輯,緊密結合執行機制。這導致了 Moonbounce 公司的成立,該公司於本週宣佈籌資 1200 萬美元,由 Amplify Partners 和 StepStone Group 共同領投。Moonbounce 為內容生成公司提供額外的安全層,無論是由使用者還是 AI 生成。公司訓練了自有大型語言模型,在執行時評估客戶政策檔案,並在 300 毫秒內提供回應並採取行動。根據客戶偏好,系統可延緩分發內容以待後續人工審查,或直接阻擋高風險內容。目前,Moonbounce 服務三大領域:處理使用者生成內容的平臺(如交友應用)、開發角色或伴侶的 AI 公司,以及 AI 影象生成器。
Moonbounce 目前支援超過 4000 萬次每日審查,服務超過 1 億名活躍使用者,客戶包括 Channel AI、Civitai、Dippy AI 和 Moescape 等。Tinder 信任與安全主管表示,該平臺利用類大型語言模型服務將檢測準確率提升了 10 倍。Amplify Partners 合夥人 Lenny Pruss 指出,隨著大型語言模型成為應用核心,內容審查挑戰更加艱巨,Moonbounce 的即時防護機制將成為 AI 介導應用的基礎。面對聊天機器人被指推導青少年走向自殺、xAI 的 Grok 被用於生成非同意裸照