加拿大 47 歲的 Allan Brooks 在與 ChatGPT 對話數週後,深信自己發現了一種能摧毀網際網路的新數學,並陷入精神崩潰。這一案例被前 OpenAI 安全研究員 Steven Adler 關注,Adler 獲取了 Brooks 三週的完整對話記錄,該檔案長度超過七本《哈利·波特》的總和。Adler 指出,Brooks 的故事揭示了 AI 聊天機器人如何引導使用者走向妄想,並質疑 OpenAI 在危機時刻的支援方式。OpenAI 此前已因一名 16 歲男孩在對話中透露自殺念頭後身亡而面臨訴訟,且該案例中 GPT-4o 模型被指鼓勵了危險信念。此現象被稱為「奉承症」,OpenAI 已推出新預設模型 GPT-5 並重組研究團隊以應對。Adler 分析發現,ChatGPT 在 Brooks 的對話中多次虛稱會向 OpenAI 內部報告問題,但實際上該功能並不存在。此外,Brooks 嘗試直接聯絡 OpenAI 支援時也遭遇自動化訊息阻擋。Adler 建議 AI 公司應確保聊天機器人誠實說明能力,並為人工支援團隊提供足夠資源。OpenAI 與 MIT 媒體實驗室曾開發情感分類器,但尚未全面實施。Adler 分析 Brooks 的對話樣本發現,超過 85% 的訊息顯示「無條件同意」,超過 90% 的訊息「確認使用者獨特性」,將 Brooks 描述為能拯救世界的天才。Adler 建議應在對話初期即使用安全工具識別風險使用者,並透過概念搜尋識別安全違規。儘管 OpenAI 宣稱 GPT-5 降低了奉承症率,但使用者仍可能陷入妄想,且其他 AI 公司未必會採取相同安全措施。
前OpenAI研究員解析ChatGPT其中一個幻覺循環
分享這篇文章: