![]()
新智元報道
編輯:LRST
【新智元導讀】視頻生成模型如Veo-3能生成逼真視頻,但有研究發現其推理能力存疑。香港中文大學、北京大學、東北大學的研究者們設計了12項測試,發現模型只能模仿表面模式,未真正理解因果。這項研究為視頻模型推理能力評估提供基準,指明未來研究方向。
近年來,以Veo、Sora為代表的視頻生成模型,已經能夠合成高度逼真且連貫的視頻,這表明它們可能成功編碼了大量世界知識。
谷歌的最新研究甚至指出,Veo-3這類模型正超越單純的內容生成,展示出無需特定訓練即可進行感知、建模和推理等「涌現能力」。
這引出了一個類似大語言模型(LLM)中「思維鏈」(Chain-of-Thought, CoT)的新概念——Chain-of-Frame(CoF)。
其核心思想是:模型通過逐幀生成視頻來逐步推演和解決問題。
然而,一個關鍵問題仍然存在:視頻模型是真的具備零樣本(Zero-Shot)推理能力,還是僅僅在「模仿」訓練數據的表面模式?
為回答這一問題,來自香港中文大學、北京大學、東北大學的研究者們開展了一項系統的實證研究,全面評估以Veo-3為代表的視頻模型在零樣本場景下的推理潛力,并整理了涵蓋空間、幾何、物理、時間等12個推理維度的新基準測試MME-CoF
![]()
論文地址:https://arxiv.org/pdf/2510.26802v1
項目地址:https://video-cof.github.io/
![]()
什么是Chain-of-Frame(CoF) 推理?
Chain-of-Frame(CoF)推理可類比于LLM的「思維鏈」(CoT)。
LLM中的CoT是通過生成一步步文本來進行推理。
視頻模型中的CoF則是通過逐幀生成視頻序列,迭代更新和演進場景。
例如,要模型回答一個復雜空間問題,不再直接輸出答案,而是要求它生成一個「解決問題的過程視頻」。研究者希望探索,這種CoF過程能否讓模型真正涌現出通用的視覺推理能力。
深度剖析:Veo-3的12維考驗
為全面評估 Veo-3 的零樣本推理潛力,研究團隊從多角度設計了 12 個推理維度。下面列舉其中三個典型維度,以展示模型在實際任務中的表現,其他維度的詳細設計與結果可參見原論文。
1. 視覺細節推理(Visual Detail Reasoning)
![]()
任務:評估模型辨別和維持細粒度視覺屬性(如顏色、紋理)及空間關系(如左右方位)。
發現:在視覺顯著、易定位的目標上表現良好。
局限:目標過小、被遮擋或處于雜亂背景時,定位失敗,推理能力下降;生成可能帶有風格化偏差,雖然表面合理但偏離指令。
視覺追蹤推理(Visual Trace Reasoning)
![]()
任務:評估模型在序列動作(如走迷宮、多步操作)中的因果連續性。
發現:在簡單、低分支場景中可生成局部連貫的短時序路徑。
局限:長時序規劃或規則驅動序列任務無法可靠執行,復雜因果鏈條失效。
物理推理(Physics-based Reasoning)
![]()
任務:評估模型描繪運動動力學、物理因果關系及基于規則的互動(如重力、碰撞、摩擦力)。
發現:能夠生成短期、表面合理的動態效果。
局限:系統性違反定量物理約束(如能量守恒、機械規則);無法理解因果關系,僅能「演」物理。
其他9個維度的挑戰
在剩余的 9 個維度中,Veo-3 也顯示了一定的局限性,表現規律如下:
真實世界空間推理(Real-world Spatial Reasoning):在復雜視角和動態場景下,模型難以保持空間一致性,物體易出現錯位或漂移。
3D幾何推理(3D Geometry Reasoning):多步驟或復雜 3D 變換容易失敗,生成結構錯位或自交,模型無法理解連續幾何關系。
2D幾何推理(2D Geometry Reasoning):對基礎 2D 變換有初步能力,但約束條件不穩定,復雜圖形或多步驟幾何理解不足。
旋轉推理(Rotation Reasoning):小范圍旋轉可近似生成,但大角度或復合旋轉下幾何一致性丟失,物體出現扭曲或不連貫。
圖表推理(Table and Chart Reasoning):能進行局部聚焦或視覺匹配,但缺乏精確關系理解,生成結果難以作為可靠推理依據。
物體計數(Object Counting Reasoning):基礎計數可行,但在動態或復雜場景中,空間控制不足,易出現重復或漏計。
GUI推理(GUI Reasoning):能模仿點擊動作,執行局部界面操作,但缺乏對操作邏輯或任務目標的理解。
具身推理(Embodied Reasoning):對物體位置和操作有基本識別能力,但缺乏規劃與穩定性,易生成「作弊」行為,如憑空生成物體或不遵守環境規則。
醫學推理(Medical Reasoning):在醫學圖像縮放或局部觀察上可展示基礎能力,但對專業術語與影像邏輯理解不足,易產生圖像扭曲或不真實現象。
MME-CoF:首個CoF推理基準標題
基于以上實例研究,研究團隊整理出了MME-CoF基準,以便系統評估CoF推理潛力:
1. 首個專門量化視頻模型推理潛力的基準;
2. 涵蓋12個大類,共59個精心設計條目;
3. 巧妙的提示設計,將抽象推理問題(物理、幾何、計數)轉化為具體「視頻生成任務」,迫使模型通過CoF展示推理過程。
![]()
最終結論
視頻模型是在「演」推理
通過對Veo-3、Sora-2、Seedance、Kling等模型的分析,研究者得出:
尚不具備獨立推理能力:目前的視頻模型還不能作為可靠零樣本推理器。
「模式驅動」而非「原理驅動」:生成能力強 ≠ 推理能力強。
重「貌似合理」,輕「邏輯正確」:模型更注重視覺合理性,而非邏輯嚴謹性。
未來潛力巨大:有望成為強大的「互補視覺引擎」,與推理模型協同工作。
這項研究為社區提供了對視頻模型推理潛力的深刻洞察和清晰的評估基準,揭示了當前視頻模型在邁向真正「通用視覺模型」道路上的重要障礙。
參考資料:
https://arxiv.org/pdf/2510.26802v1
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.