Google 近期在搜尋引擎整合生成式 AI 的功能後,因頻繁出現拼寫錯誤而引發批評。根據 Google 官方說法,字母 P 在 Google 中應有兩個,但其 AI 概述卻將「poop」中的 r 計為一個,將「journalism」拼寫為 j-o-u-r-n-a-d-i-s-m,甚至將美國總統姓氏 Trump 誤寫為 t-r-p-u-m。這種錯誤並非首次發生,此前 Google 引入 AI 概述時曾引用《The Onion》等諷刺網站內容,建議人們吃石頭並在披薩上塗膠。Google 表示,計數單詞內的字母是大型語言模型(LLM)的已知挑戰,正在努力修正。
專家指出,LLM 基於變換器架構,將文字轉換為數值編碼(token),而非像人類一樣逐字閱讀。這導致模型無法理解單詞的具體拼寫,因為它們只掌握編碼的含義,而非字母組合。例如,研究人員 Matthew Guzdial 解釋,模型看到「the」時只有一個編碼,卻不知曉 T、H、E 三個字母。由於這種 token 化架構的本質限制,即使專家達成共識,模型仍可能將文字進一步分塊,因此完美的分詞器可能不存在。雖然這些拼寫錯誤不影響 AI 的實用性,但也提醒使用者不可盲目信任 AI 輸出,必須自行核對準確性。此外,Google 此前還修復過搜尋「disregard」時顯示錯誤定義的問題,顯示其 AI 功能仍在不斷調整中。