runway 發佈首款世界模型并為最新視頻模型新增原生音訊功能

AI 影像與影片生成公司 Runway 正式推出其首款世界模型 GWM-1，加入大規模科技公司與新興創業公司的競逐行列。該模型透過逐幀預測機制，建立對物理法則與時間演變的理解，旨在讓 AI 無需針對所有現實情境進行訓練即可進行推理、規劃與行動。Runway 表示，其 GWM-1 比 Google 的 Genie-3 更具通用性，並可訓練用於機器人學與生命科學等領域的代理。Runway 技術長 Anastasis Germanidis 指出，建立世界模型的最佳途徑是教導模型直接預測畫素，在足夠規模與資料下可獲得對世界運作方式的充分理解。

Runway 推出了三個特定版本：GWM-Worlds、GWM-Robotics 與 GWM-Avatars。GWM-Worlds 是一款應用程式，使用者可透過提示詞或圖片參考設定場景，模型會生成具備幾何、物理與光照理解的互動世界，模擬執行於每秒 24 幀、720p 解析度。此模型除適用於遊戲外，亦能教導代理如何在物理世界中導航與行為。GWM-Robotics 則利用加入變天候、障礙物等新引數的合成資料，協助發現機器人在不同情境下違反政策或指令的時機與方式，並將透過 SDK 提供給機器人公司與企業。GWM-Avatars 則致力於模擬人類行為，與 D-ID、Synthesia、Soul Machines 及 Google 等公司合作，用於溝通與訓練。

此外，Runway 更新了基礎模型 Gen 4.5，新增原生音訊與長格式多鏡頭生成能力。使用者可生成一分鐘影片，保持角色一致性、包含原生對話與背景音訊，並能編輯現有音訊與新增對話，甚至處理任意長度的多鏡頭影片。此更新使 Runway 更接近本月推出的 Kling 全功能影片套件，標誌著影片生成模型從原型走向生產級工具。Gen 4.5 更新版已對所有付費計劃使用者開放。Runway 目前正與多家機器人企業及企業進行對話，探討 GWM-Robotics 與 GWM-Avatars 的應用。

runway 發佈首款世界模型 并為最新視頻模型新增原生音訊功能

runway 發佈首款世界模型并為最新視頻模型新增原生音訊功能