OpenAI 發表新研究探討大型語言模型如 GPT-5 及聊天機器人 ChatGPT 為何仍會產生幻覺,並分析是否有方法能減少此現象。研究將幻覺定義為模型生成的「看似合理但錯誤的陳述」,承認儘管有改進,幻覺仍是所有大型語言模型無法完全消除的根本挑戰。研究者舉例指出,當詢問一位作者關於其博士論文標題及生日時,常用聊天機器人分別給出三組不同的錯誤答案,且表現出極高的自信。研究認為,幻覺部分源於預訓練過程僅聚焦於預測下一個字元,缺乏真偽標籤,模型只能從流暢語言的正面範例中近似整體分佈。拼寫或括號等遵循一致模式的錯誤會隨規模縮減,但像寵物生日這類任意低頻事實無法單靠模式預測,因而導致幻覺。
針對解決方案,研究更關注大型語言模型的評估機制。現行評估模型本身不直接造成幻覺,卻設定了錯誤的激勵。研究者將此類評估比作多選題測驗,若僅以準確率評分,模型傾向猜測而非承認不確定,因為猜對有分、留空則零分。OpenAI 建議參考 SAT 等考試,引入錯題扣分或留空給分,以 discouraging 盲目猜測。評估應懲罰自信錯誤大於不確定,並給予適當表達不確定性的部分分數。研究強調,僅增加少數不確定性測試不足夠,必須更新廣泛使用的基於準確率的評估系統,使其評分機制能 discouraging 猜測。若主要排行榜繼續獎勵幸運猜測,模型將持續學習猜測行為。