過去兩年間,區分人類製圖與 AI 生成影象曾相當容易,因為早期的模型難以拼寫文字或創造合理的選單。然而,新的 ChatGPT Images 2.0 模型已能生成看似真實的墨西哥餐廳選單,甚至連價格標籤如 $13.50 的 Ceviche 都包含在內,僅需消費者自行判斷品質。與兩年前 DALL-E 3 無法生成文字的情況相比,該模型展現了顯著進步。
技術上,傳統擴散模型因專注於重建畫素而難以處理文字,但新模型可能採用類似大型語言模型的自回歸機制,並具備「思考能力」,能搜尋網路、從單一提示生成多張影象並自我檢查。OpenAI 表示,該模型對日文、韓文、印地語等非拉丁文字的理解更強,且能處理小字、圖示及 UI 元素等細節,最高支援 2K 解析度。模型知識截止於 2025 年 12 月,這可能影響對近期新聞的準確性。
OpenAI 確認,所有 ChatGPT 和 Codex 使用者將於週二起可存取 Images 2.0,付費使用者可生成更進階內容。公司亦將推出 gpt-image-2 API,定價取決於輸出品質與解析度。儘管生成複雜影象如多格漫畫需數分鐘,但其精確度與忠實度已達前所未有的水平,能有效將構想轉化為具細部元素的視覺作品。