![]()
谷歌DeepMind終于放出了Veo 3論文《Video models are zero-shot learners and reasoners》,這篇文章對Veo 3模型進行了定性和定量研究,得出的結論是Veo 3模型已經涌現出了通用視覺能力,有點像NLP領域的GPT-3時刻,下一步只需要“指令微調”就可能會出現視頻領域的ChatGPT
![]()
具體來說研究人員通過對 Veo 3 模型進行廣泛測試,展示了其在未經過特定訓練的情況下,能夠完成物體分割、邊緣檢測、物理屬性理解、工具使用模擬乃至迷宮求解等一系列復雜任務。這些涌現出的能力表明,視頻模型正在成為理解、建模和操縱視覺世界的統一平臺,預示著機器視覺領域即將迎來一次類似 NLP 領域的范式轉變
Veo 3 的四層能力剖析
為了系統性地評估視頻模型作為通用視覺基礎模型的潛力,研究人員對 Veo 3 的能力進行了一次全面的定性調查。他們將這些涌現出的能力組織成一個四層遞進的層次結構,每一層都建立在前一層的基礎之上。這個框架不僅清晰地展示了模型的能力邊界,也揭示了其解決復雜問題的內在邏輯。例如,要解決一個迷宮問題,模型首先需要感知迷宮的布局,然后對其狀態(墻壁與通道)進行建模,最后通過操縱一個物體(如一個圓點)在迷宮中移動來完成任務
![]()
1. 感知:作為理解視覺信息的基礎能力
2. 建模:在物體感知基礎上構建視覺世界的模型
3. 操控:對感知和建模后的世界進行有意義的改變
4. 推理:在連續操控步驟中跨越時空進行邏輯推演
![]()
第一層:Perception (感知) - 理解視覺信息的基礎
計算機視覺的傳統任務,如分割、物體檢測和邊緣檢測,長期以來都依賴于專門設計的模型。這些模型雖然在特定任務上表現優異,但泛化能力有限,難以在沒有額外訓練的情況下遷移到新任務。Veo 3 的出現正在改變這一現狀
1.經典視覺任務
在沒有任何針對性訓練的情況下,Veo 3 能夠零樣本執行一系列經典的計算機視覺任務。這包括:
邊緣檢測:準確地勾勒出圖像中物體的輪廓
分割:將圖像中的不同實體區分開來
關鍵點定位:識別物體或人體的關鍵節點
超分辨率:提升低分辨率圖像的清晰度
盲去模糊 (Blind deblurring) 與去噪 (Denoising):修復模糊或充滿噪點的圖像
低光增強:提亮在昏暗環境中拍攝的圖像
2.復雜感知任務
Veo 3 的感知能力不止于此,還延伸到了更復雜的認知層面。它能夠處理需要整合多重信息或理解模糊信息的任務,例如:
連接搜索:在眾多干擾項中,根據顏色和形狀的組合來尋找目標
解讀模糊圖像:成功識別經典的達爾馬提亞狗錯覺圖、紋理與形狀線索沖突的圖像,以及羅夏墨跡測試 (Rorschach test) 中的彩色斑點
除了去噪任務與擴散模型的訓練目標天然相關外,上述絕大多數感知能力都不是視頻模型在訓練中被明確教導的。這表明,Veo 3 已經涌現出了遠超其訓練任務本身的零樣本感知能力。正如 LLMs 取代了任務特定的 NLP 模型一樣,一旦視頻模型變得足夠廉價和可靠,它們很可能會取代計算機視覺領域中大多數定制化的模型
第二層:Modeling (建模) - 構建對物理與抽象世界的認知
在感知視覺世界的基礎上,視頻模型開始對其進行建模。理解世界運行的規則,例如物理定律,是進行有效預測和行動的關鍵一步。
1.直觀物理學 (Intuitive physics):Veo 3 展示了對物理世界基本規律的掌握。它能夠模擬剛體和柔體的動態行為及其表面交互,理解物體的物理屬性,例如:
可燃性:知道某些物體遇火會燃燒
空氣阻力:模擬物體在不同環境(如地球和月球)下墜落速度的差異
浮力:判斷物體(如石頭和瓶蓋)在水中的沉浮
光學現象:模擬光的折射和反射,以及加色法與減色法的混色效果
物理穩定性:在視覺疊疊樂 (Visual Jenga) 任務中,能夠以物理上可行的方式移除物體
空間容納:能夠判斷哪些物體可以被放進一個背包里。
2.抽象關系與記憶:除了物理特性,Veo 3 還能理解抽象概念和關系。例如,它能區分玩具和筆記本電腦這類不同類別的物體。在受 Omniglot 數據集啟發的任務中,Veo 3 展示了識別模式、生成變體以及將整體解析為部分的能力。此外,它還能在視頻的上下文中,跨越時間和相機移動,保持對世界狀態的記憶
第三層:Manipulation (操縱) - 對視覺世界進行有意義的改變
基于感知和建模能力,Veo 3 能夠對視覺世界進行有意義的操縱。這使其成為一個強大的零樣本圖像和視頻編輯工具,并能進行富有想象力的模擬
1.圖像編輯: Veo 3 可以執行多種編輯任務,包括:
背景移除 (Background removal)、風格遷移 (Style transfer)、上色 (Colorization)、圖像修復 (Inpainting) 和圖像擴展 (Outpainting)
文本元素操縱和基于涂鴉指令的圖像編輯
2.3D 世界理解與想象:Veo 3 對 3D 世界的理解使其能夠:
場景合成:從獨立的組件構建出完整的場景
新視角生成:從不同角度渲染物體和角色
平滑變換:將一個物體流暢地變成另一個物體
外觀重塑:通過改變視角、光照和外觀,將一張自拍照變成一張專業的證件照。
3.模擬復雜交互:這種修改場景的能力使其可以想象復雜的互動,例如模擬靈巧的物體操縱(如開罐子、扔東西)、解讀物體功能可見性 (affordances)、演示如何繪制一個形狀,甚至模擬卷一個墨西哥卷餅的過程
第四層:Reasoning (推理) - 跨越時空的視覺問題求解
當感知、建模和操縱能力融為一體時,便催生了視覺推理能力。語言模型通過符號鏈進行推理,而視頻模型則通過改變真實世界的維度(時間和空間)來實現推理。這種在生成視頻中逐幀應用變化的過程,與 LLMs 中的思維鏈 (chain-of-thought, CoT) 非常相似,論文作者將其稱為 幀鏈 (chain-of-frames, CoF)
早期推理跡象:研究人員在 Veo 3 中觀察到了這種能力的早期跡象,它能夠解決需要跨時空進行逐步推理的視覺問題:
圖與樹的遍歷:生成有效的圖遍歷路徑,或在樹結構上執行視覺廣度優先搜索
序列與模式補全:完成視覺序列、連接匹配的顏色、將形狀填入孔中
邏輯與解謎:對數字進行排序、解決簡單的數獨和視覺謎題
工具使用與導航:利用工具完成視覺任務、解決迷宮和導航問題。
規則外推:從視覺示例中推斷并應用規則
盡管這些能力尚不完美,但模型能夠以零樣本的方式解決這些問題,這為未來更先進的視覺推理和規劃指明了激動人心的方向。逐幀的視頻生成與語言模型中的思維鏈相平行。正如思維鏈使語言模型能夠對符號進行推理一樣,幀鏈使視頻模型能夠跨越時間和空間進行推理
從定性到定量:Veo 3 性能的嚴格評估
在展示了 Veo 3 廣泛的定性能力后,研究人員進一步對七個具有代表性的任務進行了定量評估,涵蓋了感知、操縱和推理等多個維度。為了全面衡量模型的性能,他們采用了一種細致的評估策略
評估方法
最佳幀 (Best frame) vs. 最終幀 (Last frame):對于每個生成的視頻,他們分別報告了表現最好的那一幀的性能和最后一幀的性能。最佳幀代表了模型的性能上限,即它有能力達到的最優解,但這個最優解出現在哪個時刻是未知的。而最終幀的性能則更具實際意義,因為它是一個預先確定的、可直接使用的結果
多次嘗試 (pass@k):他們為每個樣本生成 10 個視頻,并報告在 k 次嘗試內成功解決任務的概率 (pass@k)。這可以衡量通過多次采樣來獲得正確答案的難易程度。性能通常會隨著 k 的增加而顯著提升,這表明即使單次生成不完美,一個好的解決方案也往往能在合理的嘗試次數內找到
基準比較:在適用的情況下,他們將 Veo 3 的性能與 Veo 2、最先進的圖像編輯模型 Nano Banana 以及強大的多模態模型 Gemini 2.5 Pro 進行比較
Perception (感知) 任務評估
1.邊緣檢測 (Edge Detection)
任務:在 BIPEDv2 數據集的 50 張測試圖像上進行邊緣檢測
指標:最佳可區分尺度下的信息增益 (Optimal Information Scale, OIS)
結果:Veo 3 的性能 (pass@10 時 OIS 達到 0.77) 雖未達到任務專用的 SOTA 模型 (0.90),但作為零樣本模型已相當出色,并且遠超 Veo 2 (0.57)。一個有趣的發現是,Veo 3 生成的邊緣圖在很多情況下比數據集的真值還要精細,例如它能準確勾勒出樹葉和輪胎的紋理,而這些細節在人工標注中被忽略了。這表明,有時數據集的局限性反而會拉低模型的評分
2.分割 (Segmentation)
任務:在 LVIS 數據集的一個子集(包含 1-3 個大對象的 50 張簡單圖像)上進行類別無關的實例分割
指標:平均交并比 (mean Intersection over Union, mIoU)。
結果:Veo 3 在最佳幀上的 mIoU (pass@10 時為 0.74) 與 Nano Banana (0.73) 相當,再次展示了其強大的零樣本分割能力。研究人員還發現,提示詞對結果影響巨大:當提示要求將背景變為綠色時,性能 (0.74) 顯著優于變為白色 (0.66),這可能與綠幕在視頻制作中的廣泛使用有關
Manipulation (操縱) 任務評估
1.物體提取 (Object Extraction)
任務:在一個包含 1 到 9 只動物的自定義數據集上,提取所有動物并將它們排成一列
指標:通過計算最終幀中連通組件的數量來判斷提取的動物數量是否正確 (Pass@k)
結果:Veo 3 表現出色,pass@10 的成功率達到了 93% ,而 Veo 2 的表現則接近隨機水平
2.圖像編輯 (Image Editing)
任務:在 Emu-edit 數據集的 30 個樣本上根據文本指令編輯圖像
指標:由三位人類評估員對編輯的保真度 (fidelity, 編輯是否正確) 和精確度 (precision, 編輯正確且無非預期改動) 進行評分
結果:Veo 3 在保留細節和紋理方面表現尤為出色。然而,由于其作為視頻模型有強烈的動畫偏好,常常會引入不必要的相機移動或使靜態人物動起來。如果能更好地控制這些非預期的變化,視頻模型有望成為功能強大的 3D 感知圖像和視頻編輯器
Reasoning (推理) 任務評估
1.迷宮求解 (Maze Solving)
任務:在不同尺寸(5x5, 7x7, 9x9, 不規則)的迷宮中,將一個紅色圓點從起點移動到綠色終點,且不能穿墻
指標:路徑是否完全合規 (Pass@k %)
結果:Veo 3 展示了顯著的零樣本迷宮求解能力,性能遠超 Veo 2。在 5x5 的迷宮中,Veo 3 的 pass@10 成功率達到 78%,而 Veo 2 僅為 14%。與其它模型相比,Nano Banana 能很好地處理矩形迷宮,但完全無法解決不規則迷宮。Gemini 2.5 Pro 在接收迷宮的 ASCII 文本表示時表現優于 Veo 3,但在接收圖像輸入時則表現不佳。這凸顯了在視覺媒介中以視覺方式(即逐幀生成)解決視覺任務的優勢
2.視覺對稱性求解 (Visual Symmetry Solving)
任務:在一個自定義數據集(包含形狀和隨機圖案)上,沿中心垂直軸鏡像填充圖案。
指標:所有單元格是否被正確填充 (Pass@k %)
結果:Veo 3 的性能遠超 Veo 2 和 Nano Banana。該任務還被用于系統性地分析提示詞的影響,結果發現,最好和最差的提示詞之間,在形狀圖案上的 pass@1 性能差異高達 40 個百分點,在隨機圖案上更是高達 64 個百分點,再次證明了視覺提示工程的重要性。
3.視覺類比補全 (Visual Analogy Completion)
任務:在一個 2x2 的網格中,根據 A 到 B 的變換關系,推斷出 C 應該變換成什么,并填充缺失的第四格
指標:填充是否正確 (Pass@1 %)
結果:這是 Veo 3 表現相對較差的任務。雖然它能正確處理顏色 (color) 和縮放 (resize) 類型的類比,但在處理反射 (reflect) 和旋轉 (rotate) 這類更復雜的空間變換時,其性能低于隨機猜測的水平 (33%),這表明模型在這些變換上存在系統性的錯誤偏見
綜合來看,盡管遠未完美,但 Veo 3 基于其感知、建模和操縱對象的能力,已經展現出了涌現的視覺推理能力
寫在最后:通往通用視覺模型的道路還有多遠?
谷歌deepmind這篇論文的核心發現是,Veo 3 能夠以零樣本的方式解決從感知到早期視覺推理的多種任務。盡管其性能尚未達到完美,但從 Veo 2 到 Veo 3 的巨大且持續的性能提升表明,視頻模型正走在成為通用視覺基礎模型的道路上,就像 LLMs 為語言領域所做的那樣
研究人員強調,當前報告的性能只是模型真實能力的下限。一個任務可以用多種方式呈現,例如一個迷宮可以是黑白網格、視頻游戲場景或逼真的公寓俯視圖。解決方式也可以是畫一條線、移動一個物體或生成一條發光的路徑。這意味著兩點:
1.提示工程至關重要:不僅是文本提示,視覺提示(即初始幀)的設計也同樣關鍵
2.區分表現與能力:我們必須區分模型在特定任務設置下的表現 和其解決該類問題的潛在能力。目前的結果受限于特定的提示方式,更好的提示可能會解鎖更強的能力。這也解釋了為何模型在一些看似簡單的任務中失敗,例如為折疊衣物提供視覺指導,或規劃如何將沙發搬過一扇窄門
成本問題
目前,生成一段視頻比運行一個專用的、任務特定的模型要貴得多。然而,通用模型的經濟學發展軌跡是可預測的。根據 Epoch AI 的估算,對于給定的性能水平,LLM 的推理成本每年下降 9 到 900 倍。在 NLP 領域,早期的通用模型如 GPT-3 也曾被認為因其規模而難以部署,但快速下降的推理成本和通用模型的吸引力,最終使其取代了大多數任務專用模型。如果 NLP 的發展可以作為參考,那么同樣的趨勢也將在視覺領域上演
萬事通,無一精?
對于許多任務,Veo 3 的性能確實低于最先進的專用模型。但這與 LLMs 的早期發展階段非常相似。初代的 GPT-3 在許多任務上的表現也遠不如經過微調的專用模型。但這并未阻止語言模型成為基礎模型,研究人員認為,視頻模型也不會因此停下腳步。原因有二:
1.快速的進步:從 Veo 2 到 Veo 3 的性能飛躍證明了該領域正在快速發展
2.推理時擴展的潛力:pass@10 的性能始終高于 pass@1,且沒有出現平臺期,這意味著通過增加推理時的嘗試次數等方法,可以有效提升性能。此外,結合自動驗證器進行后訓練等標準優化手段,也有望進一步提高模型的可靠性。目前的 Veo 3,可以看作是一個尚未經過指令微調或人類反饋強化學習 (RLHF) 的預訓練語言模型
借鑒 NLP 從專用模型到通用模型的轉變,我們有理由相信,同樣的變革將通過視頻模型在機器視覺領域發生。由其涌現出的零樣本執行多樣化任務的能力所驅動,我們或許正在見證一個屬于視覺領域的 GPT-3 時刻
參考:
https://arxiv.org/pdf/2509.20328
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.