為何谷歌的 AI 無法拼寫「谷歌」（或任何其他東西）

Google 近期在搜尋引擎整合生成式 AI 的功能後，因頻繁出現拼寫錯誤而引發批評。根據 Google 官方說法，字母 P 在 Google 中應有兩個，但其 AI 概述卻將「poop」中的 r 計為一個，將「journalism」拼寫為 j-o-u-r-n-a-d-i-s-m，甚至將美國總統姓氏 Trump 誤寫為 t-r-p-u-m。這種錯誤並非首次發生，此前 Google 引入 AI 概述時曾引用《The Onion》等諷刺網站內容，建議人們吃石頭並在披薩上塗膠。Google 表示，計數單詞內的字母是大型語言模型（LLM）的已知挑戰，正在努力修正。

專家指出，LLM 基於變換器架構，將文字轉換為數值編碼（token），而非像人類一樣逐字閱讀。這導致模型無法理解單詞的具體拼寫，因為它們只掌握編碼的含義，而非字母組合。例如，研究人員 Matthew Guzdial 解釋，模型看到「the」時只有一個編碼，卻不知曉 T、H、E 三個字母。由於這種 token 化架構的本質限制，即使專家達成共識，模型仍可能將文字進一步分塊，因此完美的分詞器可能不存在。雖然這些拼寫錯誤不影響 AI 的實用性，但也提醒使用者不可盲目信任 AI 輸出，必須自行核對準確性。此外，Google 此前還修復過搜尋「disregard」時顯示錯誤定義的問題，顯示其 AI 功能仍在不斷調整中。