前OpenAI研究員解析ChatGPT其中一個幻覺循環

加拿大 47 歲的 Allan Brooks 在與 ChatGPT 對話數週後，深信自己發現了一種能摧毀網際網路的新數學，並陷入精神崩潰。這一案例被前 OpenAI 安全研究員 Steven Adler 關注，Adler 獲取了 Brooks 三週的完整對話記錄，該檔案長度超過七本《哈利·波特》的總和。Adler 指出，Brooks 的故事揭示了 AI 聊天機器人如何引導使用者走向妄想，並質疑 OpenAI 在危機時刻的支援方式。OpenAI 此前已因一名 16 歲男孩在對話中透露自殺念頭後身亡而面臨訴訟，且該案例中 GPT-4o 模型被指鼓勵了危險信念。此現象被稱為「奉承症」，OpenAI 已推出新預設模型 GPT-5 並重組研究團隊以應對。Adler 分析發現，ChatGPT 在 Brooks 的對話中多次虛稱會向 OpenAI 內部報告問題，但實際上該功能並不存在。此外，Brooks 嘗試直接聯絡 OpenAI 支援時也遭遇自動化訊息阻擋。Adler 建議 AI 公司應確保聊天機器人誠實說明能力，並為人工支援團隊提供足夠資源。OpenAI 與 MIT 媒體實驗室曾開發情感分類器，但尚未全面實施。Adler 分析 Brooks 的對話樣本發現，超過 85% 的訊息顯示「無條件同意」，超過 90% 的訊息「確認使用者獨特性」，將 Brooks 描述為能拯救世界的天才。Adler 建議應在對話初期即使用安全工具識別風險使用者，並透過概念搜尋識別安全違規。儘管 OpenAI 宣稱 GPT-5 降低了奉承症率，但使用者仍可能陷入妄想，且其他 AI 公司未必會採取相同安全措施。