Google 正在升級其 Gemini 聊天機器人,引入新的 AI 影像模型,賦予使用者更精細的圖片編輯控制權,旨在追趕 OpenAI 的流行工具並吸引來自 ChatGPT 的使用者。此次更新名為 Gemini 2.5 Flash Image,將於週二起向所有 Gemini 應用程式使用者推出,並透過 Gemini API、Google AI Studio 及 Vertex AI 平臺開放給開發者。該新模型能根據使用者的自然語言指令進行更精確的圖片編輯,同時保持人物、動物及其他細節的一致性,解決了許多競爭對手工具在修改衣物顏色時導致臉部扭曲或背景變形的問題。Gemini 2.5 Flash Image 的內建編輯器在合併狗與人的照片時,能保留其相似特徵。
該工具近期在社群媒體上引發關注,並在無名評估平臺 LMArena 的群眾評估中獲得好評,該模型以「nano-banana」的筆名出現。Google 確認此模型即其旗艦 Gemini 2.5 Flash AI 模型的內建影像能力,並聲稱在 LMArena 等多項基準測試中表現領先。Google DeepMind 產品負責人 Nicole Brichtova 表示,該更新能更順暢地進行編輯,輸出結果適用於各種需求。隨著 OpenAI 於三月推出 GPT-4o 原生影像生成器後,ChatGPT 使用者量飆升至每週超過 7 億人,而 Google 在七月財報會議上透露 Gemini 月活躍使用者為 4.5 億人。為了縮小差距,Google 特別設計此模型以符合消費者用途,例如協助使用者視覺化家居與花園專案,並具備更好的世界知識,能將沙發、客廳照片與色卡等多個參考合併為單一渲染圖。
Gemini 2.5 Flash Image 允許使用者與 AI 影像模型進行多輪對話。儘管新工具讓製作和編輯寫實圖片更簡單,Google 仍設定了防護措施。過去 Google 曾因 Gemini 生成歷史不準確的人物圖片而道歉並暫時撤回該功能。現在 Google 認為已找到更好的平衡點,禁止生成未經同意的親密影像,這與允許使用者建立類似泰勒·斯威夫特等名人 explicit 圖片的 Grok 不同。為應對深度偽造影像的興起,Google 對 AI 生成圖片應用視覺水印及後設資料識別符號