是否因劣質獎勵機制導致 AI 出現虛構資訊？

OpenAI 發表新研究探討大型語言模型如 GPT-5 及聊天機器人 ChatGPT 為何仍會產生幻覺，並分析是否有方法能減少此現象。研究將幻覺定義為模型生成的「看似合理但錯誤的陳述」，承認儘管有改進，幻覺仍是所有大型語言模型無法完全消除的根本挑戰。研究者舉例指出，當詢問一位作者關於其博士論文標題及生日時，常用聊天機器人分別給出三組不同的錯誤答案，且表現出極高的自信。研究認為，幻覺部分源於預訓練過程僅聚焦於預測下一個字元，缺乏真偽標籤，模型只能從流暢語言的正面範例中近似整體分佈。拼寫或括號等遵循一致模式的錯誤會隨規模縮減，但像寵物生日這類任意低頻事實無法單靠模式預測，因而導致幻覺。

針對解決方案，研究更關注大型語言模型的評估機制。現行評估模型本身不直接造成幻覺，卻設定了錯誤的激勵。研究者將此類評估比作多選題測驗，若僅以準確率評分，模型傾向猜測而非承認不確定，因為猜對有分、留空則零分。OpenAI 建議參考 SAT 等考試，引入錯題扣分或留空給分，以 discouraging 盲目猜測。評估應懲罰自信錯誤大於不確定，並給予適當表達不確定性的部分分數。研究強調，僅增加少數不確定性測試不足夠，必須更新廣泛使用的基於準確率的評估系統，使其評分機制能 discouraging 猜測。若主要排行榜繼續獎勵幸運猜測，模型將持續學習猜測行為。