網易首頁 > 網易號 > 正文申請入駐

讓AI生成視頻「又長又快」：Rolling Forcing實現分鐘級實時生成

2025-11-05 13:42:31　來源: 機器之心Pro

北京舉報

分享至

本工作由南洋理工大學與騰訊 ARC 實驗室聯合完成。本文的第一作者為南洋理工大學博士生劉坤昊。本文的通訊作者為 ARC 資深研究員胡文博和南洋理工大學教授 Shijian Lu。

AI 能實時拍長片了嗎？

想象一下，你正在玩一款開放世界游戲，角色在無縫銜接的世界中自由漫游，游戲引擎必須實時生成一條無限長的視頻流來呈現這個虛擬世界。或者，你戴著 AR 眼鏡在街頭行走，系統需要根據你的視線與動作，即時生成與你環境交互的畫面。無論是哪種場景，都對 AI 提出了同樣的要求：能實時生成高質量、長時間連貫的視頻流。

然而，這正是當前 AI 視頻生成的最大瓶頸。現有模型在幾秒鐘的短片中表現不錯，但當生成持續延伸時，問題會像滾雪球一樣放大。這種現象被稱為誤差累積，就像「傳話游戲」中信息一層層失真，每一幀的微小誤差都會被下一幀繼承、放大，最終導致畫面崩壞 —— 顏色漂移、動作僵硬、主體變形…… 視頻越長，問題越嚴重。

來自南洋理工大學與騰訊 ARC 實驗室的研究者提出了一種新的實時視頻生成方法：Rolling Forcing。它通過三大創新設計 —— 滾動窗口聯合降噪、Attension Sink 機制、以及高效訓練算法 —— 實現了「邊生成邊修正」，從而在單張 GPU 上實現分鐘級視頻的實時生成。

論文鏈接：https://arxiv.org/abs/2509.25161
項目主頁：https://kunhao-liu.github.io/Rolling_Forcing_Webpage/
代碼倉庫：https://github.com/TencentARC/RollingForcing
Huggingface：https://huggingface.co/TencentARC/RollingForcing

研究背景：

實時長視頻生成的「不可能三角」

實時長視頻生成有一個「不可能三角」的困境：高質量、一致性和實時性三者難以兼顧。其核心難點可分解為以下三個挑戰：

實時性要求模型順序生成：流式生成要求幀嚴格按時間順序輸出，且每幀延遲極低。這使規劃生成（Planning Generation）等非順序方法不適用于流式生成。盡管先預測關鍵幀再插值能減少誤差累積，但其亂序生成不適用于實時場景。
消除誤差累積與保持一致性的兩難：在自回歸生成中，每一幀的微小誤差（如色彩或運動失真）會像滾雪球一樣被后續幀繼承放大，導致長期漂移。為緩解此問題，歷史腐蝕（History Corruption）通過噪聲注入降低對歷史的依賴，然而卻犧牲了幀間連貫性，會有幀間跳動和長期漂移的問題。
自回歸逐幀生成的局限：Self Forcing 等方法雖滿足實時流式要求，但其逐幀生成的嚴格因果性使模型無法修正歷史錯誤，導致誤差隨視頻延長而累積，最終引發畫面崩壞。

方法核心：

Rolling Forcing如何實現「邊生成邊修正」

既然現有方法在高質量、一致性和實時性這個困境中難以突破，Rolling Forcing 的動機就很明確：能否在嚴格遵守流式順序的前提下，賦予模型一種「前瞻性」的局部修正能力？其答案是一個巧妙的「滾動窗口」思想。

它將視頻生成從一種嚴格的串行因果過程，轉變為一種滑動窗口內的并行協作過程。這好比是將傳統工業上一步接一步、誤差會逐級放大的串行流水線，升級為一個并行工作站，工作站內的成員可以相互溝通、協同修正，從而在保持產出節奏的同時，顯著提升了成品的一致性與質量。

具體而言，Rolling Forcing 通過三項關鍵設計實現了實時長視頻生成的突破：

1. 滾動窗口聯合降噪：Rolling Forcing 采用滑動窗口進行多幀聯合優化。模型在單次前向傳播中同時處理一個包含多幀的窗口，窗口內各幀通過雙向注意力機制進行相互校準。每完成一次處理，窗口向前滑動：輸出首幀作為最終結果，并引入新噪聲幀作為窗口末端輸入，實現連續流式生成。

2.Attention Sink 機制保障長期一致性：為解決長視頻生成中的漂移問題，Rolling Forcing 引入了 Attention Sink 機制。該機制將初始生成幀作為全局錨點進行持久化緩存。在生成后續所有幀時，模型均能訪問這些初始錨點信息，從而有效維持視頻的長期視覺屬性（如色調、光照和主體外觀）的一致性。

3. 高效訓練算法緩解曝光偏差：Rolling Forcing 設計了一種基于非重疊窗口的高效蒸餾訓練算法。該算法在訓練過程中使模型使用自身生成的歷史幀而非真實數據，有效模擬了推理時的真實場景。

實驗結果：

實現高質量長視頻生成與交互控制

定量結果：顯著降低誤差累積，實現實時生成

如表所示，Rolling Forcing 在多項關鍵指標上超越了現有主流方法。其最突出的優勢體現在長期一致性上：衡量視頻質量漂移的關鍵指標 ΔDriftQuality 遠低于對比模型，這證明其有效抑制了長視頻生成中的誤差累積。同時，該方法在單張 GPU 上達到了 16 fps 的生成速度，實現了實時生成，為交互式應用奠定了基礎。

定性對比：多分鐘生成仍保持高保真度

在長視頻生成的定性比較中，Rolling Forcing 的優勢更為直觀。在長達 2 分鐘的生成過程中，對比模型（如 SkyReels-V2, MAGI-1 等）出現了明顯的顏色偏移、細節退化或主體變形，而 Rolling Forcing 生成的內容在細節、色彩和運動連貫性上均保持了高度穩定。

交互式視頻生成：動態引導內容創作

Rolling Forcing 的另一項能力是支持交互式視頻流生成。在視頻流生成過程中，用戶可以隨時改變文本提示詞，模型能夠動態地根據新指令調整后續生成內容，實現內容的無縫切換與引導。

總結與未來挑戰

Rolling Forcing 成功突破了實時長視頻生成的不可能三角，在保持 16 fps 實時生成速度的同時，顯著降低了長序列生成中的誤差累積，實現了分鐘級別的高質量視頻流生成，為交互式世界模型、神經游戲引擎等應用提供了基礎。

盡管取得了突破性進展，以下方向仍值得進一步探索：

1. 記憶機制優化：當前方法僅保留初始幀和近期幀的上下文，生成過程中段的內容會被丟棄。未來需要探索更高效的長程記憶機制，實現對視頻中段關鍵信息的動態保存與召回。

2. 訓練效率提升：大窗口注意力與 DMD 損失計算導致訓練成本較高。未來可以探索在不犧牲性能的前提下降低計算復雜度，將模型擴展到更大規模。

3. 交互延遲優化：滾動窗口機制在提升質量的同時會引入微量延遲。針對需要極低延遲的交互場景（如 VR/AR），需要開發更靈活的推理策略。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.