ChatGPT 新推出的 Images 2.0 模型在生成文字方面意外表現出色

過去兩年間，區分人類製圖與 AI 生成影象曾相當容易，因為早期的模型難以拼寫文字或創造合理的選單。然而，新的 ChatGPT Images 2.0 模型已能生成看似真實的墨西哥餐廳選單，甚至連價格標籤如 $13.50 的 Ceviche 都包含在內，僅需消費者自行判斷品質。與兩年前 DALL-E 3 無法生成文字的情況相比，該模型展現了顯著進步。

技術上，傳統擴散模型因專注於重建畫素而難以處理文字，但新模型可能採用類似大型語言模型的自回歸機制，並具備「思考能力」，能搜尋網路、從單一提示生成多張影象並自我檢查。OpenAI 表示，該模型對日文、韓文、印地語等非拉丁文字的理解更強，且能處理小字、圖示及 UI 元素等細節，最高支援 2K 解析度。模型知識截止於 2025 年 12 月，這可能影響對近期新聞的準確性。

OpenAI 確認，所有 ChatGPT 和 Codex 使用者將於週二起可存取 Images 2.0，付費使用者可生成更進階內容。公司亦將推出 gpt-image-2 API，定價取決於輸出品質與解析度。儘管生成複雜影象如多格漫畫需數分鐘，但其精確度與忠實度已達前所未有的水平，能有效將構想轉化為具細部元素的視覺作品。