Google 的 Gemini Omni 可將圖片、音訊和文字轉換為影片 —— 這僅是開始

Google 於 Google I/O 開發者大會上推出 Gemini Omni 系列多模態模型，旨在實現從任何輸入建立任何內容的目標。該系列首發的 Gemini Omni Flash 模型今日開放使用，整合了影象、音訊、影片和文字，並能透過推理產生符合物理、文化、歷史及科學邏輯的高質量影片。與現有 Veo 模型不同，Omni 允許使用者使用普通文字指令編輯照片，類似於 Nano Banana 功能，並支援生成帶有自定義數字頭像的影片。為防止深度偽造，使用者需透過記錄聲音和數字進行認證，且所有生成的影片將包含 Google SynthID 數字水印。Omni Flash 初始可渲染十秒影片，主要面向消費者市場，未來將推出更長時長版本及效能更強的 Omni Pro 模型。該技術將透過 API 向企業和創意工作者開放，並可應用於廣告製作和電影行業。此外，Google 還推出了 Gemini Spark 全天候代理助手，並更新了 Gemini 應用以應對競爭。