警覺：在頂級AI會議NeurIPS發表的論文中發現虛構引用

AI 檢測初創公司 GPTZero 掃描了上月在聖地亞哥舉行的神經資訊處理系統會議（NeurIPS）所有 4,841 篇被接受的論文。該公司發現其中有 51 篇論文包含 100 個虛構的引用，並確認這些引用為假。NeurIPS 是 AI 研究領域的頂尖會議，獲得其論文接受是極具價值的成就，通常研究者會使用大型語言模型（LLM）來處理撰寫引用的枯燥任務。然而，GPTZero 的發現存在若干限制：100 個虛構引用分佈在 51 篇論文上，統計上並不顯著，因為每篇論文包含數十個引用，總數達數萬個。此外，不準確的引用並不必然否定論文的研究內容，NeurIPS 曾向富比世表示，即使 1.1% 的論文因使用 LLM 而包含錯誤參考，其內容本身未必被無效化。儘管如此，虛假引用並非無害，NeurIPS 自詡為機器學習和人工智慧領域嚴謹的學術出版機構，每篇論文均經多人同行評審，評審被指示標記虛構引用。引用也是研究者的貨幣，用於衡量其影響力，AI 製造虛假引用會削弱其價值。同行評審未能發現部分 AI 編造的引用，部分原因在於卷帙浩繁。GPTZero 指出，此次調查旨在提供資料，說明 AI 垃圾如何透過「投稿颶風」滲透，並使這些會議的審查管道不堪重負。GPTZero 甚至引用了 2025 年 5 月一篇名為「AI 會議同行評審危機」的論文，討論了包括 NeurIPS 在內的首席會議所面臨的問題。儘管如此，研究者本應自行核對 LLM 的準確性，畢竟他們應知道實際使用的論文清單。整體而言，這一事件揭示了一個諷刺的教訓：如果世界頂尖的 AI 專家無法確保其 LLM 使用的細節準確，這對我們其他人意味著什麼。