分類: 視覺與媒體
「視覺與媒體」分類的 AI 新聞與論文。
-
Snapchat 新推 Lens 功能讓用戶能透過文字提示生成 AI 圖像
Snapchat 推出全新「Imagine Lens」濾鏡,允許使用者透過文字轉影象的 AI 生成器創作與編輯圖片。該功能僅對 Snapchat+ Platinum 及 Lens+ 訂閱使用者開放。使用者可輸入自定義提示詞(如「生成一張生氣的貓」或「把我變成外星人」)來建立、編輯並重製 Snaps,隨後可與朋友分享、發布至個人故事或外部分發。儘管 Snapchat 已有其他生成式 AI 濾鏡,但 Imagine Lens 是其首款支援開放式提示詞的影象生成濾鏡。此外,濾鏡內建多項預設提示詞,例如「將我轉化為四至五格漫畫,其中發生意外但英雄式的結局」、「讓我變成搞笑漫畫人物」或「讓此人跳傘」。使用者亦可隨時點選標題欄編輯提示詞。 Snap 早前已展示一款專為行動裝置設計的 AI 文字轉影象研究模型,雖未確認此模型是否直接驅動新濾鏡,但指出其濾鏡結合了自研模型與業界領先的 AI 模型。Snapchat+ Platinum 訂閱費為每月 15.99 美元,Lens+ 訂閱費為每月 8.99 美元。訂閱使用者可在濾鏡輪播區或專屬分類中找到此功能。Snapchat 長期被視為增強實境(AR)領域的領導者,近年亦持續投入 AI 研發,包括數月前推出的獨立 Lens Studio iOS 應用程式與網頁工具,以及今年三月推出的首支影片生成式 AI 濾鏡。
-
Google Photos 升級影像轉視訊功能採用 VEO 3
Google 最新推出的影片生成模型 Veo 3 即將登陸 Google Photos 應用。該新功能位於手機版的 Create 標籤頁,允許美國使用者將靜態圖片轉化為影片片段。雖然 Google Photos 此前已透過「照片轉影片」功能提供基礎服務,但公司表示引入 Veo 3 能顯著提升影片質量。此次發布也體現了 Google 將其最新 AI 技術透過產品推向消費者的策略,截至 2025 年 5 月,Google Photos 的月活躍使用者數已超過 15 億。 Veo 3 於 5 月在 I/O 開發者大會上首次亮相,後於 7 月加入 Gemini 應用,並僅限於 AI Ultra 和 AI Pro 訂閱計劃使用者使用。這些訂閱使用者每天可生成三段影片,且影片上會帶有可見或不可見的水標記以識別其 AI 生成屬性。在 Google Photos 中,該功能旨在讓使用者將回憶帶入現實,甚至為舊照片賦予動態效果。現有的照片轉影片功能由 Veo 2 驅動,使用者可從相簿選擇照片,並從「微妙動作」或「驚喜動畫」兩個提示詞中選擇,點選「我感覺幸運」按鈕後,系統會生成一段六秒長的影片供分享。 隨著 Veo 3 的加入,該功能在 Google Photos 中將保持免費,但僅限於有限次數的生成。AI Pro 和 AI Ultra 訂閱使用者則可獲得更多生成次數。不過,該功能目前不支援音訊,且生成的影片長度為四秒。新特性位於 Google Photos 應用內的新「Create 中心」,這是一個專門探索由 AI 驅動的創意工具和功能的區域。除了 Veo 3,該中心還包含照片風格重混、製作拼貼畫、從相簿組裝蒙太奇、建立名為「電影感」的動態 3D 照片,以及將圖片轉換為 GIF 的工具。
-
Google Gemini 的 AI 圖像模型獲得「香蕉」升級
Google 正在升級其 Gemini 聊天機器人,引入新的 AI 影像模型,賦予使用者更精細的圖片編輯控制權,旨在追趕 OpenAI 的流行工具並吸引來自 ChatGPT 的使用者。此次更新名為 Gemini 2.5 Flash Image,將於週二起向所有 Gemini 應用程式使用者推出,並透過 Gemini API、Google AI Studio 及 Vertex AI 平臺開放給開發者。該新模型能根據使用者的自然語言指令進行更精確的圖片編輯,同時保持人物、動物及其他細節的一致性,解決了許多競爭對手工具在修改衣物顏色時導致臉部扭曲或背景變形的問題。Gemini 2.5 Flash Image 的內建編輯器在合併狗與人的照片時,能保留其相似特徵。 該工具近期在社群媒體上引發關注,並在無名評估平臺 LMArena 的群眾評估中獲得好評,該模型以「nano-banana」的筆名出現。Google 確認此模型即其旗艦 Gemini 2.5 Flash AI 模型的內建影像能力,並聲稱在 LMArena 等多項基準測試中表現領先。Google DeepMind 產品負責人 Nicole Brichtova 表示,該更新能更順暢地進行編輯,輸出結果適用於各種需求。隨著 OpenAI 於三月推出 GPT-4o 原生影像生成器後,ChatGPT 使用者量飆升至每週超過 7 億人,而 Google 在七月財報會議上透露 Gemini 月活躍使用者為 4.5 億人。為了縮小差距,Google 特別設計此模型以符合消費者用途,例如協助使用者視覺化家居與花園專案,並具備更好的世界知識,能將沙發、客廳照片與色卡等多個參考合併為單一渲染圖。 Gemini 2.5 Flash Image 允許使用者與 AI 影像模型進行多輪對話。儘管新工具讓製作和編輯寫實圖片更簡單,Google 仍設定了防護措施。過去 Google 曾因 Gemini 生成歷史不準確的人物圖片而道歉並暫時撤回該功能。現在 Google 認為已找到更好的平衡點,禁止生成未經同意的親密影像,這與允許使用者建立類似泰勒·斯威夫特等名人 explicit 圖片的 Grok 不同。為應對深度偽造影像的興起,Google 對 AI 生成圖片應用視覺水印及後設資料識別符號
-
Meta 與 Midjourney 合作開發 AI 圖像與影片模型
Meta 與 Midjourney 簽署合作協議,授權後者使用其 AI 影像與影片生成技術。Meta 首席 AI 官 Alexandr Wang 於週五在 Threads 上宣佈此訊息,表示 Meta 的研究團隊將與 Midjourney 合作,將該技術整合到未來的 AI 模型與產品中。Wang 強調,為了交付最佳產品,Meta 必須採取全面策略,包括頂尖人才、雄心勃勃的運算路線圖,以及與行業最佳夥伴合作。此次合作有助於 Meta 開發能與 OpenAI 的 Sora、Black Forest Lab 的 Flux 以及 Google 的 Veo 等領先 AI 影像與影片模型競爭的產品。 去年,Meta 推出了自有 AI 影像生成工具 Imagine,並將其應用於 Facebook、Instagram 和 Messenger 等產品中。此外,Meta 還擁有 AI 影片生成工具 Movie Gen,允許使用者根據提示建立影片。此次與 Midjourney 的授權協議標誌著 Meta 在 AI 競賽中保持領先的最新舉措。今年早些時候,Meta 執行長 Mark Zuckerberg 展開了大規模 AI 人才招聘,部分研究人員的薪酬包高達一億美元以上。Meta 還投資了十四億美元於 Scale AI,並收購了 AI 語音起點 Play AI。Zuckerberg 曾與 Elon Musk 討論加入其對 OpenAI 的九十七億美元收購案,但最終未成行。 關於合作細節,Midjourney 執行長 David Holz 表示公司保持獨立,未接受外部投資。Midjourney 成立於 2022 年,憑藉其寫實且獨特的風格迅速成為 AI 影像生成領域的領導者。2023 年,該公司預計營收可達二億美元,訂閱服務起價為每月十美元,最高階別每月可達一百二十美元。今年六月,Midjourney 推出了首款 AI 影片模型 V1。此次合作發生在 Midjourney 被迪士尼和環球影視集團起訴僅兩個月之後,兩家指控其利用版權作品訓練 AI 影像模型。儘管近期涉及 AI 訓練資料的訴訟多傾向於科技企業,但相關爭議仍持續存在。