![]()
本工作由南洋理工大學與騰訊 ARC 實驗室聯合完成。本文的第一作者為南洋理工大學博士生劉坤昊。本文的通訊作者為 ARC 資深研究員胡文博和南洋理工大學教授 Shijian Lu。
AI 能實時拍長片了嗎?
想象一下,你正在玩一款開放世界游戲,角色在無縫銜接的世界中自由漫游,游戲引擎必須實時生成一條無限長的視頻流來呈現這個虛擬世界。或者,你戴著 AR 眼鏡在街頭行走,系統需要根據你的視線與動作,即時生成與你環境交互的畫面。無論是哪種場景,都對 AI 提出了同樣的要求:能實時生成高質量、長時間連貫的視頻流。
然而,這正是當前 AI 視頻生成的最大瓶頸。現有模型在幾秒鐘的短片中表現不錯,但當生成持續延伸時,問題會像滾雪球一樣放大。這種現象被稱為誤差累積,就像「傳話游戲」中信息一層層失真,每一幀的微小誤差都會被下一幀繼承、放大,最終導致畫面崩壞 —— 顏色漂移、動作僵硬、主體變形…… 視頻越長,問題越嚴重。
來自南洋理工大學與騰訊 ARC 實驗室的研究者提出了一種新的實時視頻生成方法:Rolling Forcing。它通過三大創新設計 —— 滾動窗口聯合降噪、Attension Sink 機制、以及高效訓練算法 —— 實現了「邊生成邊修正」,從而在單張 GPU 上實現分鐘級視頻的實時生成。
![]()
- 論文鏈接:https://arxiv.org/abs/2509.25161
- 項目主頁:https://kunhao-liu.github.io/Rolling_Forcing_Webpage/
- 代碼倉庫:https://github.com/TencentARC/RollingForcing
- Huggingface:https://huggingface.co/TencentARC/RollingForcing
研究背景:
實時長視頻生成的「不可能三角」
![]()
實時長視頻生成有一個「不可能三角」的困境:高質量、一致性和實時性三者難以兼顧。其核心難點可分解為以下三個挑戰:
- 實時性要求模型順序生成:流式生成要求幀嚴格按時間順序輸出,且每幀延遲極低。這使規劃生成(Planning Generation)等非順序方法不適用于流式生成。盡管先預測關鍵幀再插值能減少誤差累積,但其亂序生成不適用于實時場景。
- 消除誤差累積與保持一致性的兩難:在自回歸生成中,每一幀的微小誤差(如色彩或運動失真)會像滾雪球一樣被后續幀繼承放大,導致長期漂移。為緩解此問題,歷史腐蝕(History Corruption)通過噪聲注入降低對歷史的依賴,然而卻犧牲了幀間連貫性,會有幀間跳動和長期漂移的問題。
- 自回歸逐幀生成的局限:Self Forcing 等方法雖滿足實時流式要求,但其逐幀生成的嚴格因果性使模型無法修正歷史錯誤,導致誤差隨視頻延長而累積,最終引發畫面崩壞。
方法核心:
Rolling Forcing如何實現「邊生成邊修正」
既然現有方法在高質量、一致性和實時性這個困境中難以突破,Rolling Forcing 的動機就很明確: 能否在嚴格遵守流式順序的前提下,賦予模型一種「前瞻性」的局部修正能力?其答案是一個巧妙的「滾動窗口」思想。
它將視頻生成從一種嚴格的串行因果過程,轉變為一種滑動窗口內的并行協作過程。這好比是將傳統工業上一步接一步、誤差會逐級放大的串行流水線,升級為一個并行工作站,工作站內的成員可以相互溝通、協同修正,從而在保持產出節奏的同時,顯著提升了成品的一致性與質量。
![]()
具體而言,Rolling Forcing 通過三項關鍵設計實現了實時長視頻生成的突破:
1. 滾動窗口聯合降噪:Rolling Forcing 采用滑動窗口進行多幀聯合優化。模型在單次前向傳播中同時處理一個包含多幀的窗口,窗口內各幀通過雙向注意力機制進行相互校準。每完成一次處理,窗口向前滑動:輸出首幀作為最終結果,并引入新噪聲幀作為窗口末端輸入,實現連續流式生成。
2.Attention Sink 機制保障長期一致性:為解決長視頻生成中的漂移問題,Rolling Forcing 引入了 Attention Sink 機制。該機制將初始生成幀作為全局錨點進行持久化緩存。在生成后續所有幀時,模型均能訪問這些初始錨點信息,從而有效維持視頻的長期視覺屬性(如色調、光照和主體外觀)的一致性。
3. 高效訓練算法緩解曝光偏差:Rolling Forcing 設計了一種基于非重疊窗口的高效蒸餾訓練算法。該算法在訓練過程中使模型使用自身生成的歷史幀而非真實數據,有效模擬了推理時的真實場景。
實驗結果:
實現高質量長視頻生成與交互控制
定量結果:顯著降低誤差累積,實現實時生成
![]()
如表所示,Rolling Forcing 在多項關鍵指標上超越了現有主流方法。其最突出的優勢體現在長期一致性上:衡量視頻質量漂移的關鍵指標 ΔDriftQuality 遠低于對比模型,這證明其有效抑制了長視頻生成中的誤差累積。同時,該方法在單張 GPU 上達到了 16 fps 的生成速度,實現了實時生成,為交互式應用奠定了基礎。
定性對比:多分鐘生成仍保持高保真度
![]()
在長視頻生成的定性比較中,Rolling Forcing 的優勢更為直觀。在長達 2 分鐘的生成過程中,對比模型(如 SkyReels-V2, MAGI-1 等)出現了明顯的顏色偏移、細節退化或主體變形,而 Rolling Forcing 生成的內容在細節、色彩和運動連貫性上均保持了高度穩定。
交互式視頻生成:動態引導內容創作
![]()
Rolling Forcing 的另一項能力是支持交互式視頻流生成。在視頻流生成過程中,用戶可以隨時改變文本提示詞,模型能夠動態地根據新指令調整后續生成內容,實現內容的無縫切換與引導。
![]()
總結與未來挑戰
Rolling Forcing 成功突破了實時長視頻生成的不可能三角,在保持 16 fps 實時生成速度的同時,顯著降低了長序列生成中的誤差累積,實現了分鐘級別的高質量視頻流生成,為交互式世界模型、神經游戲引擎等應用提供了基礎。
盡管取得了突破性進展,以下方向仍值得進一步探索:
1. 記憶機制優化:當前方法僅保留初始幀和近期幀的上下文,生成過程中段的內容會被丟棄。未來需要探索更高效的長程記憶機制,實現對視頻中段關鍵信息的動態保存與召回。
2. 訓練效率提升:大窗口注意力與 DMD 損失計算導致訓練成本較高。未來可以探索在不犧牲性能的前提下降低計算復雜度,將模型擴展到更大規模。
3. 交互延遲優化:滾動窗口機制在提升質量的同時會引入微量延遲。針對需要極低延遲的交互場景(如 VR/AR),需要開發更靈活的推理策略。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.