跳至內容
AI 新聞站
返回

runway 發佈首款世界模型 并為最新視頻模型新增原生音訊功能

AI 影像與影片生成公司 Runway 正式推出其首款世界模型 GWM-1,加入大規模科技公司與新興創業公司的競逐行列。該模型透過逐幀預測機制,建立對物理法則與時間演變的理解,旨在讓 AI 無需針對所有現實情境進行訓練即可進行推理、規劃與行動。Runway 表示,其 GWM-1 比 Google 的 Genie-3 更具通用性,並可訓練用於機器人學與生命科學等領域的代理。Runway 技術長 Anastasis Germanidis 指出,建立世界模型的最佳途徑是教導模型直接預測畫素,在足夠規模與資料下可獲得對世界運作方式的充分理解。

Runway 推出了三個特定版本:GWM-Worlds、GWM-Robotics 與 GWM-Avatars。GWM-Worlds 是一款應用程式,使用者可透過提示詞或圖片參考設定場景,模型會生成具備幾何、物理與光照理解的互動世界,模擬執行於每秒 24 幀、720p 解析度。此模型除適用於遊戲外,亦能教導代理如何在物理世界中導航與行為。GWM-Robotics 則利用加入變天候、障礙物等新引數的合成資料,協助發現機器人在不同情境下違反政策或指令的時機與方式,並將透過 SDK 提供給機器人公司與企業。GWM-Avatars 則致力於模擬人類行為,與 D-ID、Synthesia、Soul Machines 及 Google 等公司合作,用於溝通與訓練。

此外,Runway 更新了基礎模型 Gen 4.5,新增原生音訊與長格式多鏡頭生成能力。使用者可生成一分鐘影片,保持角色一致性、包含原生對話與背景音訊,並能編輯現有音訊與新增對話,甚至處理任意長度的多鏡頭影片。此更新使 Runway 更接近本月推出的 Kling 全功能影片套件,標誌著影片生成模型從原型走向生產級工具。Gen 4.5 更新版已對所有付費計劃使用者開放。Runway 目前正與多家機器人企業及企業進行對話,探討 GWM-Robotics 與 GWM-Avatars 的應用。


分享這篇文章:

上一篇
Google發表「Disco」,一個基於Gemini的工具,可用於從瀏覽器分頁建立網頁應用程式
下一篇
迪士尼簽約 OpenAI 允許 Sora 生成包含其角色的 AI 視頻