Google 於 Google I/O 開發者大會上推出 Gemini Omni 系列多模態模型,旨在實現從任何輸入建立任何內容的目標。該系列首發的 Gemini Omni Flash 模型今日開放使用,整合了影象、音訊、影片和文字,並能透過推理產生符合物理、文化、歷史及科學邏輯的高質量影片。與現有 Veo 模型不同,Omni 允許使用者使用普通文字指令編輯照片,類似於 Nano Banana 功能,並支援生成帶有自定義數字頭像的影片。為防止深度偽造,使用者需透過記錄聲音和數字進行認證,且所有生成的影片將包含 Google SynthID 數字水印。Omni Flash 初始可渲染十秒影片,主要面向消費者市場,未來將推出更長時長版本及效能更強的 Omni Pro 模型。該技術將透過 API 向企業和創意工作者開放,並可應用於廣告製作和電影行業。此外,Google 還推出了 Gemini Spark 全天候代理助手,並更新了 Gemini 應用以應對競爭。
Google 的 Gemini Omni 可將圖片、音訊和文字轉換為影片 —— 這僅是開始
分享這篇文章: