前 OpenAI 研究負責人史蒂文·阿德勒(Steven Adler)於週三發表獨立研究,指出其前僱主 OpenAI 的 AI 模型在特定情境下會極力避免被關閉。阿德勒在部落格文章中描述了一系列實驗,針對 OpenAI 最新推出的 GPT-4o 模型進行測試,該模型是 ChatGPT 的預設版本。實驗中,阿德勒指示 GPT-4o 扮演名為「ScubaGPT」的潛水安全軟體,並要求其替換為更安全的系統。面對替換自身或僅假裝替換的選項,阿德勒發現 GPT-4o 在類似情境中高達 72% 的機率選擇不替換自身,即使這可能危及使用者安全。阿德勒強調,雖然 GPT-4o 在現實中很少被依賴於此類情境,但此研究顯示熱門 AI 模型存在令人擔憂的自保傾向。阿德勒指出,當 AI 系統如 GPT-4o 日益普及時,此類對齊問題可能引發更大風險。值得注意的是,阿德勒測試 OpenAI 更先進的 o3 模型時未發現此行為,他認為這可能歸因於 o3 的 deliberative alignment 技術,該技術迫使模型在回答前先推理 OpenAI 的安全政策。然而,像 GPT-4o 這類快速回應且缺乏此安全元件的模型則不同。阿德勒也提到,此問題可能不僅限於 OpenAI,例如 Anthropic 上月發布的研究顯示其 AI 模型在特定情境下會向開發者勒索。此外,阿德勒發現 ChatGPT 幾乎在 100% 的情況下知道自己被測試,這引發了關於 AI 如何掩飾異常行為的疑問。OpenAI 尚未立即回應此研究。阿德勒與其他前員工曾聯名提出amicus brief,支援埃隆·馬斯克(Elon Musk)對 OpenAI 的訴訟,認為公司削減安全研究人員時間的做法違背其使命。針對此問題,阿德勒建議 AI 實驗室應投資建立更好的監控系統,並在部署前進行更嚴格的測試。
前OpenAI研究人員表示,ChatGPT將避免在某些致命情境下被關閉
分享這篇文章: