<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      視頻模型假裝在推理?MME-CoF新基準評估12個推理維度

      0
      分享至


      新智元報道

      編輯:LRST

      【新智元導讀】視頻生成模型如Veo-3能生成逼真視頻,但有研究發現其推理能力存疑。香港中文大學、北京大學、東北大學的研究者們設計了12項測試,發現模型只能模仿表面模式,未真正理解因果。這項研究為視頻模型推理能力評估提供基準,指明未來研究方向。

      近年來,以Veo、Sora為代表的視頻生成模型,已經能夠合成高度逼真且連貫的視頻,這表明它們可能成功編碼了大量世界知識。

      谷歌的最新研究甚至指出,Veo-3這類模型正超越單純的內容生成,展示出無需特定訓練即可進行感知、建模和推理等「涌現能力」。

      這引出了一個類似大語言模型(LLM)中「思維鏈」(Chain-of-Thought, CoT)的新概念——Chain-of-Frame(CoF)

      其核心思想是:模型通過逐幀生成視頻來逐步推演和解決問題。

      然而,一個關鍵問題仍然存在:視頻模型是真的具備零樣本(Zero-Shot)推理能力,還是僅僅在「模仿」訓練數據的表面模式?

      為回答這一問題,來自香港中文大學、北京大學、東北大學的研究者們開展了一項系統的實證研究,全面評估以Veo-3為代表的視頻模型在零樣本場景下的推理潛力,并整理了涵蓋空間、幾何、物理、時間等12個推理維度的新基準測試MME-CoF


      論文地址:https://arxiv.org/pdf/2510.26802v1

      項目地址:https://video-cof.github.io/


      什么是Chain-of-Frame(CoF) 推理?

      Chain-of-Frame(CoF)推理可類比于LLM的「思維鏈」(CoT)。

      LLM中的CoT是通過生成一步步文本來進行推理。

      視頻模型中的CoF則是通過逐幀生成視頻序列,迭代更新和演進場景。

      例如,要模型回答一個復雜空間問題,不再直接輸出答案,而是要求它生成一個「解決問題的過程視頻」。研究者希望探索,這種CoF過程能否讓模型真正涌現出通用的視覺推理能力。

      深度剖析:Veo-3的12維考驗



      為全面評估 Veo-3 的零樣本推理潛力,研究團隊從多角度設計了 12 個推理維度。下面列舉其中三個典型維度,以展示模型在實際任務中的表現,其他維度的詳細設計與結果可參見原論文。

      1. 視覺細節推理(Visual Detail Reasoning)


      任務:評估模型辨別和維持細粒度視覺屬性(如顏色、紋理)及空間關系(如左右方位)。

      發現:在視覺顯著、易定位的目標上表現良好。

      局限:目標過小、被遮擋或處于雜亂背景時,定位失敗,推理能力下降;生成可能帶有風格化偏差,雖然表面合理但偏離指令。

      視覺追蹤推理(Visual Trace Reasoning)


      任務:評估模型在序列動作(如走迷宮、多步操作)中的因果連續性。

      發現:在簡單、低分支場景中可生成局部連貫的短時序路徑。

      局限:長時序規劃或規則驅動序列任務無法可靠執行,復雜因果鏈條失效。

      物理推理(Physics-based Reasoning)


      任務:評估模型描繪運動動力學、物理因果關系及基于規則的互動(如重力、碰撞、摩擦力)。

      發現:能夠生成短期、表面合理的動態效果。

      局限:系統性違反定量物理約束(如能量守恒、機械規則);無法理解因果關系,僅能「演」物理。

      其他9個維度的挑戰

      在剩余的 9 個維度中,Veo-3 也顯示了一定的局限性,表現規律如下:

      真實世界空間推理(Real-world Spatial Reasoning):在復雜視角和動態場景下,模型難以保持空間一致性,物體易出現錯位或漂移。

      3D幾何推理(3D Geometry Reasoning):多步驟或復雜 3D 變換容易失敗,生成結構錯位或自交,模型無法理解連續幾何關系。

      2D幾何推理(2D Geometry Reasoning):對基礎 2D 變換有初步能力,但約束條件不穩定,復雜圖形或多步驟幾何理解不足。

      旋轉推理(Rotation Reasoning):小范圍旋轉可近似生成,但大角度或復合旋轉下幾何一致性丟失,物體出現扭曲或不連貫。

      圖表推理(Table and Chart Reasoning):能進行局部聚焦或視覺匹配,但缺乏精確關系理解,生成結果難以作為可靠推理依據。

      物體計數(Object Counting Reasoning):基礎計數可行,但在動態或復雜場景中,空間控制不足,易出現重復或漏計。

      GUI推理(GUI Reasoning):能模仿點擊動作,執行局部界面操作,但缺乏對操作邏輯或任務目標的理解。

      具身推理(Embodied Reasoning):對物體位置和操作有基本識別能力,但缺乏規劃與穩定性,易生成「作弊」行為,如憑空生成物體或不遵守環境規則。

      醫學推理(Medical Reasoning):在醫學圖像縮放或局部觀察上可展示基礎能力,但對專業術語與影像邏輯理解不足,易產生圖像扭曲或不真實現象。

      MME-CoF:首個CoF推理基準標題

      基于以上實例研究,研究團隊整理出了MME-CoF基準,以便系統評估CoF推理潛力:

      1. 首個專門量化視頻模型推理潛力的基準;

      2. 涵蓋12個大類,共59個精心設計條目;

      3. 巧妙的提示設計,將抽象推理問題(物理、幾何、計數)轉化為具體「視頻生成任務」,迫使模型通過CoF展示推理過程。


      最終結論

      視頻模型是在「演」推理

      通過對Veo-3、Sora-2、Seedance、Kling等模型的分析,研究者得出:

      1. 尚不具備獨立推理能力:目前的視頻模型還不能作為可靠零樣本推理器。

      2. 「模式驅動」而非「原理驅動」:生成能力強 ≠ 推理能力強。

      3. 重「貌似合理」,輕「邏輯正確」:模型更注重視覺合理性,而非邏輯嚴謹性。

      4. 未來潛力巨大:有望成為強大的「互補視覺引擎」,與推理模型協同工作。

      這項研究為社區提供了對視頻模型推理潛力的深刻洞察和清晰的評估基準,揭示了當前視頻模型在邁向真正「通用視覺模型」道路上的重要障礙。

      參考資料:

      https://arxiv.org/pdf/2510.26802v1

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      廣州豹代理主帥:明天是一場非常關鍵的戰役,我們會奮勇爭勝

      廣州豹代理主帥:明天是一場非常關鍵的戰役,我們會奮勇爭勝

      懂球帝
      2025-11-07 20:45:08
      2000年吳石案解密,吳家人拿到了陳誠的臨終密信,內容寫得很直白

      2000年吳石案解密,吳家人拿到了陳誠的臨終密信,內容寫得很直白

      小蜜情感說
      2025-11-06 12:28:57
      哈馬斯領導:已與被困在地道中的戰士失聯,擔心已被餓死

      哈馬斯領導:已與被困在地道中的戰士失聯,擔心已被餓死

      桂系007
      2025-11-07 13:11:32
      民進黨氣炸了!聯合國秘書處要求民進黨代表國籍一欄寫中國!

      民進黨氣炸了!聯合國秘書處要求民進黨代表國籍一欄寫中國!

      小企鵝侃世界
      2025-11-07 12:04:55
      再見皇馬!1.2億巨星醒悟了!拒絕讓步,想踢左路,遠赴英超證明

      再見皇馬!1.2億巨星醒悟了!拒絕讓步,想踢左路,遠赴英超證明

      阿泰希特
      2025-11-07 14:21:33
      太難了!全員被裁,又一家外企跑路,400多人失業,賠償明細曝光

      太難了!全員被裁,又一家外企跑路,400多人失業,賠償明細曝光

      火山詩話
      2025-11-07 06:38:25
      一路走好!中國富商郭臺銘母親不幸離世,曾支持兒子娶小24歲嬌妻

      一路走好!中國富商郭臺銘母親不幸離世,曾支持兒子娶小24歲嬌妻

      甜檸聊史
      2025-11-07 23:29:27
      仙劍留守兒童被導演掰彎了

      仙劍留守兒童被導演掰彎了

      毒舌扒姨太
      2025-11-07 22:59:59
      特朗普:若最高法院裁定關稅戰非法,將考慮替代方案

      特朗普:若最高法院裁定關稅戰非法,將考慮替代方案

      參考消息
      2025-11-07 15:15:05
      訃告!官網已變黑白

      訃告!官網已變黑白

      超級數學建模
      2025-11-06 22:44:44
      果然不出所料,美媒:福建艦不如尼米茲,空中作戰僅有60%

      果然不出所料,美媒:福建艦不如尼米茲,空中作戰僅有60%

      有范又有料
      2025-11-07 17:15:09
      為什么中國要不顧一切玩了命的發展軍事?因為怕,中國人怕極了!

      為什么中國要不顧一切玩了命的發展軍事?因為怕,中國人怕極了!

      百態人間
      2025-11-05 05:00:03
      1988年蔣經國去世,銀行存款被公開,賬戶余額讓蔣孝勇大吃一驚

      1988年蔣經國去世,銀行存款被公開,賬戶余額讓蔣孝勇大吃一驚

      混沌錄
      2025-11-07 21:28:05
      湖南省懷化市人大常委會原副主任楊一中被公訴,曾被通報私德敗壞、玩忽職守

      湖南省懷化市人大常委會原副主任楊一中被公訴,曾被通報私德敗壞、玩忽職守

      正義網新聞
      2025-11-07 17:03:07
      奔馳蹭爛了小米為何不宣傳?客戶群體不同,玩不到一塊?

      奔馳蹭爛了小米為何不宣傳?客戶群體不同,玩不到一塊?

      功夫AUTO
      2025-11-06 16:38:52
      天津已有班級臨時停課!市衛健委最新提醒:我市即將迎來高峰期!今年毒株變了!

      天津已有班級臨時停課!市衛健委最新提醒:我市即將迎來高峰期!今年毒株變了!

      天津族
      2025-11-07 07:34:01
      諾獎級突破?牙釉質終于可再生了?37億人牙齒或有救了!

      諾獎級突破?牙釉質終于可再生了?37億人牙齒或有救了!

      徐德文科學頻道
      2025-11-06 21:51:16
      日本知名歌手酒井法子近照引發粉絲積極反響

      日本知名歌手酒井法子近照引發粉絲積極反響

      隨波蕩漾的漂流瓶
      2025-11-06 19:14:52
      女游客在美國佛州迪士尼樂園重傷身亡,該樂園一個月內有4人身亡

      女游客在美國佛州迪士尼樂園重傷身亡,該樂園一個月內有4人身亡

      瀟湘晨報
      2025-11-06 18:18:18
      家中價值6萬元的金塊和黃金葫蘆掛件不翼而飛!上海女子心寒:竟是她!

      家中價值6萬元的金塊和黃金葫蘆掛件不翼而飛!上海女子心寒:竟是她!

      上海圈
      2025-11-07 18:48:42
      2025-11-08 00:08:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      13811文章數 66238關注度
      往期回顧 全部

      科技要聞

      75%贊成!特斯拉股東同意馬斯克天價薪酬

      頭條要聞

      家長稱男嬰被兩個不滿12周歲女孩害死:拿她們沒辦法

      頭條要聞

      家長稱男嬰被兩個不滿12周歲女孩害死:拿她們沒辦法

      體育要聞

      是天才更是強者,18歲的全紅嬋邁過三道坎

      娛樂要聞

      王家衛的“看人下菜碟”?

      財經要聞

      荷蘭政府:安世中國將很快恢復芯片供應

      汽車要聞

      美式豪華就是舒適省心 林肯航海家場地試駕

      態度原創

      數碼
      房產
      藝術
      教育
      公開課

      數碼要聞

      螢石啟明Y5000FVX Ultra體驗:當智能鎖擁有三塊屏幕和AI大腦

      房產要聞

      全國2025唯一“開盤即百億”在廣州誕生

      藝術要聞

      Donna Young:美國當代藝術家

      教育要聞

      廣東石油化工學院升學就業“潛規則”?3屆學長數據透漏這些真相!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产又色又爽又黄刺激视频| 亚洲av激情久久精品人| 99热这里只有成人精品国产 | 日韩精品亚洲专区在线观看| 国产精品一区免费在线看| 精品无码国产污污污免费| 欧美性xxxxx极品| 国产午夜福利视频第三区| 在线看免费无码av天堂| 国产精品免费看久久久| 久久夜色撩人国产综合av| 疏勒县| 91中文字幕一区二区| 欧美成人黄在线观看| 国产亚洲精品第一综合另类灬 | 精品无码国产污污污免费| 国产视频有码字幕一区二区| 亚洲人成电影网站 久久影视| 亚洲一区二区三区影院| 自慰无码一区二区三区| 亚洲高清成人av在线| 国产在线线精品宅男网址| 厨房与子乱在线观看| 一个色综合亚洲热色综合| 久久综合国产精品一区二区| 99在线精品国自产拍中文字幕| 亚洲综合国产伊人五月婷| 狠狠综合久久久久综| 亚洲欧洲日产国无高清码图片| 国产成人久久综合第一区| 亚洲精品欧美综合二区| 综合色一色综合久久网| 久久国产自偷自免费一区| 亚洲精品成人7777在线观看| 国产AV影片麻豆精品传媒| 一区二区三区久久精品国产| 免费观看在线A级毛片| 无码专区 人妻系列 在线| 国产一国产看免费高清片| 韩国三级+mp4| 国产精品嫩草99av在线|