![]()
新智元報道
編輯:LRST
【新智元導讀】全新AI工具EditVerse將圖片和視頻編輯整合到一個框架中,讓你像P圖一樣輕松P視頻。通過統一的通用視覺語言和上下文學習能力,EditVerse解決了傳統視頻編輯復雜、數據稀缺的問題,還能實現罕見的「涌現能力」。在效果上,它甚至超越了商業工具Runway,預示著一個創作新紀元的到來。
你是否曾有過這樣的經歷:
用Hunyuan- Image、nano-banana等各類AI軟件修圖已經得心應手,但面對視頻編輯,卻需要打開有著復雜時間線和特效面板的視頻剪輯軟件(PR/FCPX),瞬間感覺「我不會了」。
圖片編輯和視頻編輯,仿佛是兩個次元的技能樹。
但如果,有一個工具,能讓你像P圖一樣P視頻呢?
今天,這個顛覆性的工具來了!
由香港中文大學、Adobe Research、約翰霍普金斯大學的研究員們聯合推出的EditVerse,是一個劃時代的AI模型,徹底打破了圖片和視頻創作之間的壁壘,用一個統一的框架,實現了對圖像和視頻的自由編輯與生成。
![]()
論文鏈接:https://arxiv.org/abs/2509.20360
項目主頁:http://editverse.s3-website-us-east-1.amazonaws.com/
測試代碼:https://github.com/adobe-research/EditVerse
完整結果:http://editverse.s3-website-us-east-1.amazonaws.com/comparison.html
無論是生成音樂音符特效,還是給跳舞的人物加上一對閃亮的翅膀,你只需要輸入一句話,EditVerse就能幫你實現。
EditVerse視頻編輯能力展示
「數據孤島」
視頻編輯為何如此之難?
長期以來,AI視頻編輯的發展遠遠落后于圖片編輯。究其原因,主要有兩大「天塹」:
架構的「隔閡」:傳統的AI模型,要么是專為圖片設計的,要么是專為視頻設計的。想讓一個圖片編輯模型去處理視頻,或者反之,都極其困難,需要復雜的魔改和適配 。這導致了工具的碎片化。
數據的「饑荒」:高質量的、帶有「編輯指令-編輯后」配對的視頻數據集極其稀少 。相比于數以億計的圖像編輯數據,視頻領域的「養料」嚴重不足,這極大地限制了AI的學習和進化。
這些難題,使得過去的AI視頻編輯工具要么功能單一,要么效果不盡人意,始終無法像圖片編輯那樣靈活和強大。
EditVerse的「破壁」之道
EditVerse的革命性,在于它用一套全新的「世界觀」和方法論,同時解決了架構和數據的雙重難題。
核心思想一:創造一種「通用視覺語言」
![]()
EditVerse交錯文本與視覺模式的示例。EditVerse 能夠處理任意分辨率、時長和順序位置的圖像與視頻輸入和輸出。
EditVerse做的第一件事,就是教會AI用同一種方式去「閱讀」世界上所有的視覺信息。它創新地將文本、圖片、視頻全部轉換成一種統一的、一維的「數據流」(Token序列)。這就像是發明了一種「世界語」,讓原本說著不同方言(圖片編碼 vs 視頻編碼)的AI,現在可以用同一種語言進行交流和思考。
核心思想二:強大的「上下文學習能力」
![]()
EditVerse 模型結構。研究人員設計了一個統一的圖像和視頻編輯與生成框架,將文本與視覺輸入處理為統一的序列。圖中右側展示了位置信息編碼設計(RoPE位置編碼)。該框架利用全自注意力機制,以促進強大的上下文學習能力,并實現跨模態的高效知識遷移。
有了「通用語言」后,EditVerse采用了一個基于全自注意力機制(Full Self-attention)的強大Transformer架構 。通過將所有信息流在序列維度拼接在一起,EditVerse模型可以直接通過attention的上下文學習能力將不同圖片、視頻和文字中的信息關聯起來。
你可以把它想象成一位「上下文學習大師」,它能一口氣讀完包含指令、原始畫面的整段「數據流」,并精準理解其中每個部分之間的關聯。
比如「把【視頻1】左邊女人的裙子變成【圖2】中的裙子」 ,全注意力機制能準確地將文本指令、視頻中的特定人物和圖片中的服裝關聯起來。
同時,這種設計使得EditVerse能夠靈活處理任意分辨率、任意時長的輸入,真正做到了「隨心所欲」 。
核心思想三:搭建一座「知識遷移的橋梁」
這正是EditVerse最巧妙的地方。因為它使用一套統一的框架同時處理圖片和視頻,所以它能將在海量的圖片編輯數據中學到的知識(比如什么是「火焰特效」、「水彩畫風格」),無縫遷移并應用到視頻編輯任務中。
這座「知識橋梁」極大地緩解了視頻數據稀少的問題,讓模型能夠舉一反三,展現出驚人的創造力和泛化能力。
訓練數據與首個多分辨率視頻編輯評測基準
光有聰明的「大腦」(模型架構)還不夠,還需要海量的「知識」(訓練數據)和公平的「考官」(評測基準)。
面對視頻編輯數據稀缺的困境,EditVerse團隊首先建立了一條可擴展的數據生產線。
他們利用各種先進的專用AI模型,先自動生成海量的視頻編輯樣本(例如物體移除、風格轉換等),然后通過一個視覺語言模型(VLM)進行打分和篩選,最終精選出23.2萬個高質量的視頻編輯樣本用于訓練 。
這批視頻編輯數據,與600萬圖像編輯樣本、390萬視頻生成樣本、190萬圖像生成樣本等海量數據混合在一起,共同訓練EditVerse,從而使模型擁有更好的知識遷移理解能力。
此外,為了科學、公正地評估模型的能力,團隊還推出了業界首個針對指令式視頻編輯的綜合性評測基準——EditVerseBench。這個評測基準包含了100個不同分辨率的視頻,覆蓋了多達20種不同的編輯任務,從簡單的物體添加,到復雜的風格變換,確保能全面地檢驗每個模型的真實水平 。
![]()
EditVerseBench示例。EditVerseBench包含200組編輯樣本,均勻分布在20個編輯類別中,視頻涵蓋橫向和縱向兩種方向。
能力展示
當想象力沒有邊界
EditVerse不僅統一了工作流,其編輯效果更是達到了業界頂尖水準,在人工評估(Human Evaluation)上更是超過了商業模型Runway Aleph。
下面通過一些真實的案例,感受它的強大。
EditVerse與過往方法的完整效果對比
為了進行大規模、客觀的自動化評測,團隊從多個角度進行了對于各個模型的評測
視頻質量 (Video Quality): 使用與人類審美高度相關的PickScore進行評分 。
文本對齊 (Text Alignment): 分別在單幀和整個視頻層面,計算編輯結果與文字指令的語義匹配度 。
時間一致性 (Temporal Consistency): 通過計算相鄰幀之間的特征相似度,來判斷視頻是否流暢、無閃爍 。
視覺語言模型(VLM)GPT-4o評分(VLM Evaluation):它會從指令遵循度、編輯質量、背景一致性等多個角度為生成結果打分。
在EditVerseBench基準測試上,EditVerse與現有主流方法進行了對比,結果顯示其全面領先于所有開源模型 。更值得注意的是,在最符合人類偏好的VLM評分上,EditVerse超越了閉源商業模型Runway Aleph。
![]()
在EditVerseBench上的定量比較。對于開源研究模型,研究人員比較了兩種無需訓練的方法(TokenFlow和STDF)、一種首幀傳播方法(Se?orita-2M),以及一種基于指令的視頻編輯方法(InsV2V)。最佳結果以粗體標出。還提供了一個商業模型Runway Aleph的結果。盡管由于基礎模型的差異,EditVerse在生成質量上略遜于Runway Aleph,但EditVerse在編輯忠實度上(通過基于視覺語言模型的編輯質量評估)超越了它,與人類評估結果更加一致。
在編輯領域,用戶的真實偏好最有說服力。在真人評測環節中,評測者在不知道模型來源的情況下,對不同模型生成的視頻進行投票。
結果再次印證了EditVerse的優勢:它不僅對開源模型取得了壓倒性的勝利(例如對InsV2V的勝率高達96.9%),面對商業模型Runway Aleph,也有51.7%的用戶認為EditVerse的效果更好。
![]()
人類評估結果
EditVerse的「涌現能力」從何而來?
在測試過程中,研究人員發現了一個令人興奮的現象:EditVerse經常能完成一些它從未在視頻數據中學過的任務。
比如,指令是「把烏龜變成水晶材質」或「給天空加上延時攝影效果」,盡管它的視頻訓練集中并沒有這類「材質變換」或「特效添加」的專項數據,但模型依然能出色地完成。
這種「無師自通」的能力,就是AI領域備受關注的「涌現能力」(Emergent Ability)。
這背后的秘密,正是前文提到的那座「知識遷移的橋梁」在發揮關鍵作用。
想象一下,EditVerse就像一位學徒,閱讀了600萬本關于「靜態繪畫」的頂級教材(圖片編輯數據),卻只看了28.8萬份關于「動態影像」的簡報(視頻編輯數據) 。
然而,他從海量繪畫教材中學到了關于光影、構圖、材質、風格的深刻原理。當他處理動態影像時,他能將這些底層藝術原理靈活運用,從而「領悟」出視頻中如何表現「水晶質感」或「天氣變化」,即便簡報里從未提過。
為了驗證這一猜想,團隊進行了一項關鍵的消融實驗:他們拿走那600萬本「繪畫教材」(即移除圖片編輯數據),只用視頻數據來訓練模型。
結果不出所料,新模型的視頻編輯能力發生了斷崖式的下跌。
另外,團隊還發現,如果將視頻生成訓練數據移除,模型效果同樣會下降,這說明了模型是從圖片編輯+視頻生成兩者各取其長,涌現出了視頻編輯的能力。
![]()
關于訓練數據的消融研究。
![]()
訓練數據消融實驗的可視化結果。圖像數據起到了關鍵作用。
這項實驗無可辯駁地證明了:正是從海量、多樣化的圖像數據中汲取的深層知識,賦予了EditVerse在視頻領域舉一反三、觸類旁通的「涌現能力」。
它甚至能創造出比其訓練數據質量更高的作品,因為它不是在死記硬背,而是在真正地理解和創造 。
![]()
將EditVerse的生成結果與真實數據進行比較。結果顯示,EditVerse能夠通過從圖像和視頻生成數據中提取知識,生成質量超越真實數據。
一個創作新紀元的開啟
EditVerse的出現,其意義遠不止于一個強大的工具,它預示著一個全新的內容創作范式的到來,從分離到統一,從繁瑣到簡潔。
EditVerse正在做的,是將專業級的視覺編輯能力,真正地普及給每一個有創意的人。
作者簡介
![]()
鞠璇,香港中文大學計算機科學與工程博士生,研究方向為圖像視頻生成、理解生成統一模型等,曾在Meta、可靈、Adobe、騰訊、IDEA、商湯等多個公司實習。
參考資料:
https://arxiv.org/abs/2509.20360
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.