分類: 視覺與媒體
「視覺與媒體」分類的 AI 新聞與論文。
-
Google 的 Gemini Omni 可將圖片、音訊和文字轉換為影片 —— 這僅是開始
Google 於 Google I/O 開發者大會上推出 Gemini Omni 系列多模態模型,旨在實現從任何輸入建立任何內容的目標。該系列首發的 Gemini Omni Flash 模型今日開放使用,整合了影象、音訊、影片和文字,並能透過推理產生符合物理、文化、歷史及科學邏輯的高質量影片。與現有 Veo 模型不同,Omni 允許使用者使用普通文字指令編輯照片,類似於 Nano Banana 功能,並支援生成帶有自定義數字頭像的影片。為防止深度偽造,使用者需透過記錄聲音和數字進行認證,且所有生成的影片將包含 Google SynthID 數字水印。Omni Flash 初始可渲染十秒影片,主要面向消費者市場,未來將推出更長時長版本及效能更強的 Omni Pro 模型。該技術將透過 API 向企業和創意工作者開放,並可應用於廣告製作和電影行業。此外,Google 還推出了 Gemini Spark 全天候代理助手,並更新了 Gemini 應用以應對競爭。
-
ChatGPT 新推出的 Images 2.0 模型在生成文字方面意外表現出色
過去兩年間,區分人類製圖與 AI 生成影象曾相當容易,因為早期的模型難以拼寫文字或創造合理的選單。然而,新的 ChatGPT Images 2.0 模型已能生成看似真實的墨西哥餐廳選單,甚至連價格標籤如 $13.50 的 Ceviche 都包含在內,僅需消費者自行判斷品質。與兩年前 DALL-E 3 無法生成文字的情況相比,該模型展現了顯著進步。 技術上,傳統擴散模型因專注於重建畫素而難以處理文字,但新模型可能採用類似大型語言模型的自回歸機制,並具備「思考能力」,能搜尋網路、從單一提示生成多張影象並自我檢查。OpenAI 表示,該模型對日文、韓文、印地語等非拉丁文字的理解更強,且能處理小字、圖示及 UI 元素等細節,最高支援 2K 解析度。模型知識截止於 2025 年 12 月,這可能影響對近期新聞的準確性。 OpenAI 確認,所有 ChatGPT 和 Codex 使用者將於週二起可存取 Images 2.0,付費使用者可生成更進階內容。公司亦將推出 gpt-image-2 API,定價取決於輸出品質與解析度。儘管生成複雜影象如多格漫畫需數分鐘,但其精確度與忠實度已達前所未有的水平,能有效將構想轉化為具細部元素的視覺作品。
-
Google 現在讓你透過提示詞直接操控 Vids 應用的虛擬形象
Google 於週四為其影片編輯應用 Vids 新增多項功能,包括透過文字提示指導和自定義虛擬形象、支援 Veo 3.1 影片生成模型、將影片匯出至 YouTube 以及新增 Chrome 瀏覽器擴充套件程式以進行螢幕錄製。使用者現在可使用自然語言提示讓虛擬形象在場景中「表演」,例如與產品、道具或裝置互動,儘管輸出具有動態性,Google 表示 Vids 仍能保持角色一致性。使用者可根據影片主題調整角色外觀、服裝並透過提示建立新背景。上月 Google 已在 Vids 中整合 Lyria 3 和 Lyria 3 Pro 音樂創作模型,用於新增音效或音樂。此次更新引入的 Veo 3.1 模型可在工具內生成八秒長的影片片段,所有使用者每月享有十次免費生成機會,而 Google AI Ultra 和 Workspace AI Ultra 賬戶每月可生成高達一千個影片。此外,完成後的影片可直導至 YouTube,預設為私密狀態,以便使用者在公開前審查。新推出的 Chrome 擴充套件程式允許使用者錄製帶音訊或影片的螢幕畫面。Google 自 2024 年推出 Vids 以來持續增補功能,旨在服務企業內容創作,去年將 AI 虛擬形象引入並擴大消費者訪問許可權。二月份,公司新增了二維和三維卡通風格虛擬形象,並支援七種新語音覆寫語言,包括法語、德語、義大利語、韓語、葡萄牙語、西班牙語和日語。目前 Vids 面臨來自 Synthesia、HeyGen、D-ID 和 Lemon Slice 等競爭對手的挑戰。
-
字節跳動全新AI視頻生成模型Dreamina Seedance 2.0 登上CapCut
位元組動產確認其全新音訊與影片模型 Dreamina Seedance 2.0 已在其編輯平臺 CapCut 中開始分階段推出。儘管 OpenAI 關閉了 Sora 應用,但該模型允許創作者透過提示詞、圖片或參考影片來草擬、編輯並同步影片與音訊內容。此次推出將首先在巴西、印尼、馬來西亞、墨西哥、菲律賓、泰國和越南等市場進行,更多市場將隨時間逐步加入。此前有報導稱該模型的全球推出將暫停,以解決引發好萊塢批評的版權侵權問題,這可能解釋了目前可訪問市場數量有限的現象。在中國,該模型已對剪映使用者可用。 根據位元組動產的說明,該影片生成模型無需參考圖片,僅使用幾個詞即可描述場景。CapCut 擅長渲染真實的紋理、動作和光線,可應用於編輯、增強或校正創作者的影片。另一用途是讓創作者基於早期概念或草圖測試潛在想法,再進行實際拍攝。該模型適用於烹飪食譜、健身教程、商業或產品概覽等廣泛內容,特別是在動作或動作導向影片方面,這是 AI 影片模型以往面臨挑戰的領域。 在推出時,該模型支援長達 15 秒的片段,並涵蓋六種長寬比。在 CapCut 中,該模型將應用於編輯功能如 AI 影片以及生成工具如影片工作室。它還將進入位元組動產的 AI 生成平臺 Dreamina 及其營銷平臺 Pippit。由於其建立真實內容的能力,位元組動產已新增安全限制,模型無法從包含真實臉部的圖片或影片中生成影片。CapCut 也將阻止未經授權的智慧財產權生成。如果限制運作正常,該模型本應現在在美國可用,但可能仍在進行更多調整。 Dreamina Seedance 2.0 產生的內容將包含不可見的水印,這有助於識別在平臺外共享時由該模型建立的內容,並可協助權利持有者在發生版權問題時提出下架請求。位元組動產表示,隨著模型推出,它將與專家和創意社群合作,以迭代並改進模型的 capabilities。