分類: 視覺與媒體

「視覺與媒體」分類的 AI 新聞與論文。

Google 的 Gemini Omni 可將圖片、音訊和文字轉換為影片 —— 這僅是開始

2026年5月19日

Google 於 Google I/O 開發者大會上推出 Gemini Omni 系列多模態模型，旨在實現從任何輸入建立任何內容的目標。該系列首發的 Gemini Omni Flash 模型今日開放使用，整合了影象、音訊、影片和文字，並能透過推理產生符合物理、文化、歷史及科學邏輯的高質量影片。與現有 Veo 模型不同，Omni 允許使用者使用普通文字指令編輯照片，類似於 Nano Banana 功能，並支援生成帶有自定義數字頭像的影片。為防止深度偽造，使用者需透過記錄聲音和數字進行認證，且所有生成的影片將包含 Google SynthID 數字水印。Omni Flash 初始可渲染十秒影片，主要面向消費者市場，未來將推出更長時長版本及效能更強的 Omni Pro 模型。該技術將透過 API 向企業和創意工作者開放，並可應用於廣告製作和電影行業。此外，Google 還推出了 Gemini Spark 全天候代理助手，並更新了 Gemini 應用以應對競爭。
ChatGPT 新推出的 Images 2.0 模型在生成文字方面意外表現出色

2026年4月21日

過去兩年間，區分人類製圖與 AI 生成影象曾相當容易，因為早期的模型難以拼寫文字或創造合理的選單。然而，新的 ChatGPT Images 2.0 模型已能生成看似真實的墨西哥餐廳選單，甚至連價格標籤如 $13.50 的 Ceviche 都包含在內，僅需消費者自行判斷品質。與兩年前 DALL-E 3 無法生成文字的情況相比，該模型展現了顯著進步。技術上，傳統擴散模型因專注於重建畫素而難以處理文字，但新模型可能採用類似大型語言模型的自回歸機制，並具備「思考能力」，能搜尋網路、從單一提示生成多張影象並自我檢查。OpenAI 表示，該模型對日文、韓文、印地語等非拉丁文字的理解更強，且能處理小字、圖示及 UI 元素等細節，最高支援 2K 解析度。模型知識截止於 2025 年 12 月，這可能影響對近期新聞的準確性。 OpenAI 確認，所有 ChatGPT 和 Codex 使用者將於週二起可存取 Images 2.0，付費使用者可生成更進階內容。公司亦將推出 gpt-image-2 API，定價取決於輸出品質與解析度。儘管生成複雜影象如多格漫畫需數分鐘，但其精確度與忠實度已達前所未有的水平，能有效將構想轉化為具細部元素的視覺作品。
Google 現在讓你透過提示詞直接操控 Vids 應用的虛擬形象

2026年4月2日

Google 於週四為其影片編輯應用 Vids 新增多項功能，包括透過文字提示指導和自定義虛擬形象、支援 Veo 3.1 影片生成模型、將影片匯出至 YouTube 以及新增 Chrome 瀏覽器擴充套件程式以進行螢幕錄製。使用者現在可使用自然語言提示讓虛擬形象在場景中「表演」，例如與產品、道具或裝置互動，儘管輸出具有動態性，Google 表示 Vids 仍能保持角色一致性。使用者可根據影片主題調整角色外觀、服裝並透過提示建立新背景。上月 Google 已在 Vids 中整合 Lyria 3 和 Lyria 3 Pro 音樂創作模型，用於新增音效或音樂。此次更新引入的 Veo 3.1 模型可在工具內生成八秒長的影片片段，所有使用者每月享有十次免費生成機會，而 Google AI Ultra 和 Workspace AI Ultra 賬戶每月可生成高達一千個影片。此外，完成後的影片可直導至 YouTube，預設為私密狀態，以便使用者在公開前審查。新推出的 Chrome 擴充套件程式允許使用者錄製帶音訊或影片的螢幕畫面。Google 自 2024 年推出 Vids 以來持續增補功能，旨在服務企業內容創作，去年將 AI 虛擬形象引入並擴大消費者訪問許可權。二月份，公司新增了二維和三維卡通風格虛擬形象，並支援七種新語音覆寫語言，包括法語、德語、義大利語、韓語、葡萄牙語、西班牙語和日語。目前 Vids 面臨來自 Synthesia、HeyGen、D-ID 和 Lemon Slice 等競爭對手的挑戰。
字節跳動全新AI視頻生成模型Dreamina Seedance 2.0 登上CapCut

2026年3月26日

位元組動產確認其全新音訊與影片模型 Dreamina Seedance 2.0 已在其編輯平臺 CapCut 中開始分階段推出。儘管 OpenAI 關閉了 Sora 應用，但該模型允許創作者透過提示詞、圖片或參考影片來草擬、編輯並同步影片與音訊內容。此次推出將首先在巴西、印尼、馬來西亞、墨西哥、菲律賓、泰國和越南等市場進行，更多市場將隨時間逐步加入。此前有報導稱該模型的全球推出將暫停，以解決引發好萊塢批評的版權侵權問題，這可能解釋了目前可訪問市場數量有限的現象。在中國，該模型已對剪映使用者可用。根據位元組動產的說明，該影片生成模型無需參考圖片，僅使用幾個詞即可描述場景。CapCut 擅長渲染真實的紋理、動作和光線，可應用於編輯、增強或校正創作者的影片。另一用途是讓創作者基於早期概念或草圖測試潛在想法，再進行實際拍攝。該模型適用於烹飪食譜、健身教程、商業或產品概覽等廣泛內容，特別是在動作或動作導向影片方面，這是 AI 影片模型以往面臨挑戰的領域。在推出時，該模型支援長達 15 秒的片段，並涵蓋六種長寬比。在 CapCut 中，該模型將應用於編輯功能如 AI 影片以及生成工具如影片工作室。它還將進入位元組動產的 AI 生成平臺 Dreamina 及其營銷平臺 Pippit。由於其建立真實內容的能力，位元組動產已新增安全限制，模型無法從包含真實臉部的圖片或影片中生成影片。CapCut 也將阻止未經授權的智慧財產權生成。如果限制運作正常，該模型本應現在在美國可用，但可能仍在進行更多調整。 Dreamina Seedance 2.0 產生的內容將包含不可見的水印，這有助於識別在平臺外共享時由該模型建立的內容，並可協助權利持有者在發生版權問題時提出下架請求。位元組動產表示，隨著模型推出，它將與專家和創意社群合作，以迭代並改進模型的 capabilities。

分類: 視覺與媒體

Google 的 Gemini Omni 可將圖片、音訊和文字轉換為影片 —— 這僅是開始

ChatGPT 新推出的 Images 2.0 模型在生成文字方面意外表現出色

Google 現在讓你透過提示詞直接操控 Vids 應用的虛擬形象

字節跳動全新AI視頻生成模型Dreamina Seedance 2.0 登上CapCut