<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      從思維鏈(CoT)到幀鏈(CoF)!谷歌DeepMind最新論文揭秘Veo 3涌現能力

      0
      分享至


      谷歌DeepMind終于放出了Veo 3論文《Video models are zero-shot learners and reasoners》,這篇文章對Veo 3模型進行了定性和定量研究,得出的結論是Veo 3模型已經涌現出了通用視覺能力,有點像NLP領域的GPT-3時刻,下一步只需要“指令微調”就可能會出現視頻領域的ChatGPT


      具體來說研究人員通過對 Veo 3 模型進行廣泛測試,展示了其在未經過特定訓練的情況下,能夠完成物體分割、邊緣檢測、物理屬性理解、工具使用模擬乃至迷宮求解等一系列復雜任務。這些涌現出的能力表明,視頻模型正在成為理解、建模和操縱視覺世界的統一平臺,預示著機器視覺領域即將迎來一次類似 NLP 領域的范式轉變

      Veo 3 的四層能力剖析

      為了系統性地評估視頻模型作為通用視覺基礎模型的潛力,研究人員對 Veo 3 的能力進行了一次全面的定性調查。他們將這些涌現出的能力組織成一個四層遞進的層次結構,每一層都建立在前一層的基礎之上。這個框架不僅清晰地展示了模型的能力邊界,也揭示了其解決復雜問題的內在邏輯。例如,要解決一個迷宮問題,模型首先需要感知迷宮的布局,然后對其狀態(墻壁與通道)進行建模,最后通過操縱一個物體(如一個圓點)在迷宮中移動來完成任務


      1. 感知:作為理解視覺信息的基礎能力

      2. 建模:在物體感知基礎上構建視覺世界的模型

      3. 操控:對感知和建模后的世界進行有意義的改變

      4. 推理:在連續操控步驟中跨越時空進行邏輯推演


      第一層:Perception (感知) - 理解視覺信息的基礎

      計算機視覺的傳統任務,如分割、物體檢測和邊緣檢測,長期以來都依賴于專門設計的模型。這些模型雖然在特定任務上表現優異,但泛化能力有限,難以在沒有額外訓練的情況下遷移到新任務。Veo 3 的出現正在改變這一現狀

      1.經典視覺任務

      在沒有任何針對性訓練的情況下,Veo 3 能夠零樣本執行一系列經典的計算機視覺任務。這包括:

      邊緣檢測:準確地勾勒出圖像中物體的輪廓

      分割:將圖像中的不同實體區分開來

      關鍵點定位:識別物體或人體的關鍵節點

      超分辨率:提升低分辨率圖像的清晰度

      盲去模糊 (Blind deblurring) 與去噪 (Denoising):修復模糊或充滿噪點的圖像

      低光增強:提亮在昏暗環境中拍攝的圖像

      2.復雜感知任務

      Veo 3 的感知能力不止于此,還延伸到了更復雜的認知層面。它能夠處理需要整合多重信息或理解模糊信息的任務,例如:

      連接搜索:在眾多干擾項中,根據顏色和形狀的組合來尋找目標

      解讀模糊圖像:成功識別經典的達爾馬提亞狗錯覺圖、紋理與形狀線索沖突的圖像,以及羅夏墨跡測試 (Rorschach test) 中的彩色斑點

      除了去噪任務與擴散模型的訓練目標天然相關外,上述絕大多數感知能力都不是視頻模型在訓練中被明確教導的。這表明,Veo 3 已經涌現出了遠超其訓練任務本身的零樣本感知能力。正如 LLMs 取代了任務特定的 NLP 模型一樣,一旦視頻模型變得足夠廉價和可靠,它們很可能會取代計算機視覺領域中大多數定制化的模型

      第二層:Modeling (建模) - 構建對物理與抽象世界的認知

      在感知視覺世界的基礎上,視頻模型開始對其進行建模。理解世界運行的規則,例如物理定律,是進行有效預測和行動的關鍵一步。

      1.直觀物理學 (Intuitive physics):Veo 3 展示了對物理世界基本規律的掌握。它能夠模擬剛體和柔體的動態行為及其表面交互,理解物體的物理屬性,例如:

      可燃性:知道某些物體遇火會燃燒

      空氣阻力:模擬物體在不同環境(如地球和月球)下墜落速度的差異

      浮力:判斷物體(如石頭和瓶蓋)在水中的沉浮

      光學現象:模擬光的折射和反射,以及加色法與減色法的混色效果

      物理穩定性:在視覺疊疊樂 (Visual Jenga) 任務中,能夠以物理上可行的方式移除物體

      空間容納:能夠判斷哪些物體可以被放進一個背包里。

      2.抽象關系與記憶:除了物理特性,Veo 3 還能理解抽象概念和關系。例如,它能區分玩具和筆記本電腦這類不同類別的物體。在受 Omniglot 數據集啟發的任務中,Veo 3 展示了識別模式、生成變體以及將整體解析為部分的能力。此外,它還能在視頻的上下文中,跨越時間和相機移動,保持對世界狀態的記憶

      第三層:Manipulation (操縱) - 對視覺世界進行有意義的改變

      基于感知和建模能力,Veo 3 能夠對視覺世界進行有意義的操縱。這使其成為一個強大的零樣本圖像和視頻編輯工具,并能進行富有想象力的模擬

      1.圖像編輯: Veo 3 可以執行多種編輯任務,包括:

      背景移除 (Background removal)、風格遷移 (Style transfer)、上色 (Colorization)、圖像修復 (Inpainting) 和圖像擴展 (Outpainting)

      文本元素操縱和基于涂鴉指令的圖像編輯

      2.3D 世界理解與想象:Veo 3 對 3D 世界的理解使其能夠:

      場景合成:從獨立的組件構建出完整的場景

      新視角生成:從不同角度渲染物體和角色

      平滑變換:將一個物體流暢地變成另一個物體

      外觀重塑:通過改變視角、光照和外觀,將一張自拍照變成一張專業的證件照。

      3.模擬復雜交互:這種修改場景的能力使其可以想象復雜的互動,例如模擬靈巧的物體操縱(如開罐子、扔東西)、解讀物體功能可見性 (affordances)、演示如何繪制一個形狀,甚至模擬卷一個墨西哥卷餅的過程

      第四層:Reasoning (推理) - 跨越時空的視覺問題求解

      當感知、建模和操縱能力融為一體時,便催生了視覺推理能力。語言模型通過符號鏈進行推理,而視頻模型則通過改變真實世界的維度(時間和空間)來實現推理。這種在生成視頻中逐幀應用變化的過程,與 LLMs 中的思維鏈 (chain-of-thought, CoT) 非常相似,論文作者將其稱為 幀鏈 (chain-of-frames, CoF)

      早期推理跡象:研究人員在 Veo 3 中觀察到了這種能力的早期跡象,它能夠解決需要跨時空進行逐步推理的視覺問題:

      圖與樹的遍歷:生成有效的圖遍歷路徑,或在樹結構上執行視覺廣度優先搜索

      序列與模式補全:完成視覺序列、連接匹配的顏色、將形狀填入孔中

      邏輯與解謎:對數字進行排序、解決簡單的數獨和視覺謎題

      工具使用與導航:利用工具完成視覺任務、解決迷宮和導航問題。

      規則外推:從視覺示例中推斷并應用規則

      盡管這些能力尚不完美,但模型能夠以零樣本的方式解決這些問題,這為未來更先進的視覺推理和規劃指明了激動人心的方向。逐幀的視頻生成與語言模型中的思維鏈相平行。正如思維鏈使語言模型能夠對符號進行推理一樣,幀鏈使視頻模型能夠跨越時間和空間進行推理

      從定性到定量:Veo 3 性能的嚴格評估

      在展示了 Veo 3 廣泛的定性能力后,研究人員進一步對七個具有代表性的任務進行了定量評估,涵蓋了感知、操縱和推理等多個維度。為了全面衡量模型的性能,他們采用了一種細致的評估策略

      評估方法

      最佳幀 (Best frame) vs. 最終幀 (Last frame):對于每個生成的視頻,他們分別報告了表現最好的那一幀的性能和最后一幀的性能。最佳幀代表了模型的性能上限,即它有能力達到的最優解,但這個最優解出現在哪個時刻是未知的。而最終幀的性能則更具實際意義,因為它是一個預先確定的、可直接使用的結果

      多次嘗試 (pass@k):他們為每個樣本生成 10 個視頻,并報告在 k 次嘗試內成功解決任務的概率 (pass@k)。這可以衡量通過多次采樣來獲得正確答案的難易程度。性能通常會隨著 k 的增加而顯著提升,這表明即使單次生成不完美,一個好的解決方案也往往能在合理的嘗試次數內找到

      基準比較:在適用的情況下,他們將 Veo 3 的性能與 Veo 2、最先進的圖像編輯模型 Nano Banana 以及強大的多模態模型 Gemini 2.5 Pro 進行比較

      Perception (感知) 任務評估

      1.邊緣檢測 (Edge Detection)

      任務:在 BIPEDv2 數據集的 50 張測試圖像上進行邊緣檢測

      指標:最佳可區分尺度下的信息增益 (Optimal Information Scale, OIS)

      結果:Veo 3 的性能 (pass@10 時 OIS 達到 0.77) 雖未達到任務專用的 SOTA 模型 (0.90),但作為零樣本模型已相當出色,并且遠超 Veo 2 (0.57)。一個有趣的發現是,Veo 3 生成的邊緣圖在很多情況下比數據集的真值還要精細,例如它能準確勾勒出樹葉和輪胎的紋理,而這些細節在人工標注中被忽略了。這表明,有時數據集的局限性反而會拉低模型的評分

      2.分割 (Segmentation)

      任務:在 LVIS 數據集的一個子集(包含 1-3 個大對象的 50 張簡單圖像)上進行類別無關的實例分割

      指標:平均交并比 (mean Intersection over Union, mIoU)。

      結果:Veo 3 在最佳幀上的 mIoU (pass@10 時為 0.74) 與 Nano Banana (0.73) 相當,再次展示了其強大的零樣本分割能力。研究人員還發現,提示詞對結果影響巨大:當提示要求將背景變為綠色時,性能 (0.74) 顯著優于變為白色 (0.66),這可能與綠幕在視頻制作中的廣泛使用有關

      Manipulation (操縱) 任務評估

      1.物體提取 (Object Extraction)

      任務:在一個包含 1 到 9 只動物的自定義數據集上,提取所有動物并將它們排成一列

      指標:通過計算最終幀中連通組件的數量來判斷提取的動物數量是否正確 (Pass@k)

      結果:Veo 3 表現出色,pass@10 的成功率達到了 93% ,而 Veo 2 的表現則接近隨機水平

      2.圖像編輯 (Image Editing)

      任務:在 Emu-edit 數據集的 30 個樣本上根據文本指令編輯圖像

      指標:由三位人類評估員對編輯的保真度 (fidelity, 編輯是否正確) 和精確度 (precision, 編輯正確且無非預期改動) 進行評分

      結果:Veo 3 在保留細節和紋理方面表現尤為出色。然而,由于其作為視頻模型有強烈的動畫偏好,常常會引入不必要的相機移動或使靜態人物動起來。如果能更好地控制這些非預期的變化,視頻模型有望成為功能強大的 3D 感知圖像和視頻編輯器

      Reasoning (推理) 任務評估

      1.迷宮求解 (Maze Solving)

      任務:在不同尺寸(5x5, 7x7, 9x9, 不規則)的迷宮中,將一個紅色圓點從起點移動到綠色終點,且不能穿墻

      指標:路徑是否完全合規 (Pass@k %)

      結果:Veo 3 展示了顯著的零樣本迷宮求解能力,性能遠超 Veo 2。在 5x5 的迷宮中,Veo 3 的 pass@10 成功率達到 78%,而 Veo 2 僅為 14%。與其它模型相比,Nano Banana 能很好地處理矩形迷宮,但完全無法解決不規則迷宮。Gemini 2.5 Pro 在接收迷宮的 ASCII 文本表示時表現優于 Veo 3,但在接收圖像輸入時則表現不佳。這凸顯了在視覺媒介中以視覺方式(即逐幀生成)解決視覺任務的優勢

      2.視覺對稱性求解 (Visual Symmetry Solving)

      任務:在一個自定義數據集(包含形狀和隨機圖案)上,沿中心垂直軸鏡像填充圖案。

      指標:所有單元格是否被正確填充 (Pass@k %)

      結果:Veo 3 的性能遠超 Veo 2 和 Nano Banana。該任務還被用于系統性地分析提示詞的影響,結果發現,最好和最差的提示詞之間,在形狀圖案上的 pass@1 性能差異高達 40 個百分點,在隨機圖案上更是高達 64 個百分點,再次證明了視覺提示工程的重要性。

      3.視覺類比補全 (Visual Analogy Completion)

      任務:在一個 2x2 的網格中,根據 A 到 B 的變換關系,推斷出 C 應該變換成什么,并填充缺失的第四格

      指標:填充是否正確 (Pass@1 %)

      結果:這是 Veo 3 表現相對較差的任務。雖然它能正確處理顏色 (color) 和縮放 (resize) 類型的類比,但在處理反射 (reflect) 和旋轉 (rotate) 這類更復雜的空間變換時,其性能低于隨機猜測的水平 (33%),這表明模型在這些變換上存在系統性的錯誤偏見

      綜合來看,盡管遠未完美,但 Veo 3 基于其感知、建模和操縱對象的能力,已經展現出了涌現的視覺推理能力

      寫在最后:通往通用視覺模型的道路還有多遠?

      谷歌deepmind這篇論文的核心發現是,Veo 3 能夠以零樣本的方式解決從感知到早期視覺推理的多種任務。盡管其性能尚未達到完美,但從 Veo 2 到 Veo 3 的巨大且持續的性能提升表明,視頻模型正走在成為通用視覺基礎模型的道路上,就像 LLMs 為語言領域所做的那樣

      研究人員強調,當前報告的性能只是模型真實能力的下限。一個任務可以用多種方式呈現,例如一個迷宮可以是黑白網格、視頻游戲場景或逼真的公寓俯視圖。解決方式也可以是畫一條線、移動一個物體或生成一條發光的路徑。這意味著兩點:

      1.提示工程至關重要:不僅是文本提示,視覺提示(即初始幀)的設計也同樣關鍵

      2.區分表現與能力:我們必須區分模型在特定任務設置下的表現 和其解決該類問題的潛在能力。目前的結果受限于特定的提示方式,更好的提示可能會解鎖更強的能力。這也解釋了為何模型在一些看似簡單的任務中失敗,例如為折疊衣物提供視覺指導,或規劃如何將沙發搬過一扇窄門

      成本問題

      目前,生成一段視頻比運行一個專用的、任務特定的模型要貴得多。然而,通用模型的經濟學發展軌跡是可預測的。根據 Epoch AI 的估算,對于給定的性能水平,LLM 的推理成本每年下降 9 到 900 倍。在 NLP 領域,早期的通用模型如 GPT-3 也曾被認為因其規模而難以部署,但快速下降的推理成本和通用模型的吸引力,最終使其取代了大多數任務專用模型。如果 NLP 的發展可以作為參考,那么同樣的趨勢也將在視覺領域上演

      萬事通,無一精?

      對于許多任務,Veo 3 的性能確實低于最先進的專用模型。但這與 LLMs 的早期發展階段非常相似。初代的 GPT-3 在許多任務上的表現也遠不如經過微調的專用模型。但這并未阻止語言模型成為基礎模型,研究人員認為,視頻模型也不會因此停下腳步。原因有二:

      1.快速的進步:從 Veo 2 到 Veo 3 的性能飛躍證明了該領域正在快速發展

      2.推理時擴展的潛力:pass@10 的性能始終高于 pass@1,且沒有出現平臺期,這意味著通過增加推理時的嘗試次數等方法,可以有效提升性能。此外,結合自動驗證器進行后訓練等標準優化手段,也有望進一步提高模型的可靠性。目前的 Veo 3,可以看作是一個尚未經過指令微調或人類反饋強化學習 (RLHF) 的預訓練語言模型

      借鑒 NLP 從專用模型到通用模型的轉變,我們有理由相信,同樣的變革將通過視頻模型在機器視覺領域發生。由其涌現出的零樣本執行多樣化任務的能力所驅動,我們或許正在見證一個屬于視覺領域的 GPT-3 時刻

      參考:

      https://arxiv.org/pdf/2509.20328

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      歐冠積分榜形勢:拜仁阿森納全勝,巴黎皇馬遭首敗,意甲陷危機

      歐冠積分榜形勢:拜仁阿森納全勝,巴黎皇馬遭首敗,意甲陷危機

      懂球帝
      2025-11-05 06:37:14
      哈馬斯:以色列向地道灌混凝土困我們的戰士,嚴重違反協議

      哈馬斯:以色列向地道灌混凝土困我們的戰士,嚴重違反協議

      桂系007
      2025-11-04 22:41:12
      NBA傳聞:若范弗利特仍缺陣,灰熊正考慮交易莫蘭特,火箭加入?

      NBA傳聞:若范弗利特仍缺陣,灰熊正考慮交易莫蘭特,火箭加入?

      好火子
      2025-11-06 02:15:20
      中央宣講團成員,已赴多個省份

      中央宣講團成員,已赴多個省份

      政知新媒體
      2025-11-05 22:42:32
      心情郁悶時就去瞅瞅李湘的評論區,我簡直快要笑瘋了。

      心情郁悶時就去瞅瞅李湘的評論區,我簡直快要笑瘋了。

      陳意小可愛
      2025-10-21 01:04:16
      內線都快被打爆了,結果快船依然不愿意給首輪秀多些出場時間?

      內線都快被打爆了,結果快船依然不愿意給首輪秀多些出場時間?

      稻谷與小麥
      2025-11-06 02:12:25
      四川首次迎來“春秋假”,家長卻發長文阻撓:雙職工家庭吃不消了

      四川首次迎來“春秋假”,家長卻發長文阻撓:雙職工家庭吃不消了

      熙熙說教
      2025-11-05 21:17:49
      還沒完了!趙鴻剛對手給所有武林大師下戰書,中國武協或出面干預

      還沒完了!趙鴻剛對手給所有武林大師下戰書,中國武協或出面干預

      楊華評論
      2025-11-05 23:59:12
      比肩阿德和埃托奧,勞塔羅本賽季出戰的三場歐冠比賽均有進球

      比肩阿德和埃托奧,勞塔羅本賽季出戰的三場歐冠比賽均有進球

      懂球帝
      2025-11-06 05:26:52
      湖南某三甲醫院美女眼科主任與副院長的瓜

      湖南某三甲醫院美女眼科主任與副院長的瓜

      筆桿論道
      2025-11-05 22:02:55
      全都“反水”了!美、韓芯片巨頭集體行動,外媒:限制將反轉

      全都“反水”了!美、韓芯片巨頭集體行動,外媒:限制將反轉

      科普100克克
      2025-11-03 23:36:41
      千萬不要在網上買“這4樣”東西,水太深了,看完真后怕!

      千萬不要在網上買“這4樣”東西,水太深了,看完真后怕!

      裝修秀
      2025-10-28 11:55:03
      返回臺灣!“館長”強烈安利記者去大陸玩

      返回臺灣!“館長”強烈安利記者去大陸玩

      看看新聞Knews
      2025-11-06 01:04:03
      年輕人不買賬,中年人喝不起!茅臺跌破1600,終于承認只是瓶酒?

      年輕人不買賬,中年人喝不起!茅臺跌破1600,終于承認只是瓶酒?

      金融八卦女
      2025-11-05 13:57:48
      要超就超美國,電磁彈射版攻擊-11亮相?中國隱身無人機航母走在世界前列

      要超就超美國,電磁彈射版攻擊-11亮相?中國隱身無人機航母走在世界前列

      Ck的蜜糖
      2025-11-06 00:13:30
      震驚!賴清德對解放軍攻臺保持沉默,鄭麗文一語引發國際熱議

      震驚!賴清德對解放軍攻臺保持沉默,鄭麗文一語引發國際熱議

      Ck的蜜糖
      2025-11-06 02:25:48
      baby葉珂雙雙哭暈!黃曉明跟女制片人貼臉擁抱,坐大腿親密照來了

      baby葉珂雙雙哭暈!黃曉明跟女制片人貼臉擁抱,坐大腿親密照來了

      八星人
      2025-11-05 15:32:27
      美專家:當美軍第一波導彈干掉中國航母或兩棲艦后,希望中國退讓

      美專家:當美軍第一波導彈干掉中國航母或兩棲艦后,希望中國退讓

      陣匠
      2025-08-02 09:16:14
      立冬吃餃子,別管多忙,記得:2餡不吃、4事不做,別犯忌諱

      立冬吃餃子,別管多忙,記得:2餡不吃、4事不做,別犯忌諱

      阿龍美食記
      2025-11-04 11:50:20
      A股:剛剛,兩部門重磅宣布,政策暖意托底,周四將迎大級別變化

      A股:剛剛,兩部門重磅宣布,政策暖意托底,周四將迎大級別變化

      云鵬敘事
      2025-11-06 00:00:03
      2025-11-06 06:04:49
      AI寒武紀 incentive-icons
      AI寒武紀
      專注于人工智能,科技領域
      960文章數 370關注度
      往期回顧 全部

      科技要聞

      大轉彎!特朗普再提名馬斯克盟友任NASA局長

      頭條要聞

      美國肯塔基州州長:本州進入緊急狀態

      頭條要聞

      美國肯塔基州州長:本州進入緊急狀態

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發心臟病去世

      財經要聞

      事關加快建設金融強國 中央金融辦發聲

      汽車要聞

      智己LS9入局"9系"混戰 全尺寸SUV市場迎來新變量

      態度原創

      教育
      藝術
      時尚
      健康
      家居

      教育要聞

      語言的學習,從不講捷徑

      藝術要聞

      Michal Lukasiewicz:木刻般的繪畫

      今年一定要擁有這件大衣,復古又時髦!

      超聲探頭會加重受傷情況嗎?

      家居要聞

      別樣府院 暢享詩意生活

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产啪视频免费观看视频| 亚洲一区二区偷拍精品| 午夜精品福利亚洲国产| 人妻饥渴偷公乱中文字幕| 西西444www高清大胆| 亚洲熟妇无码八av在线播放| 熟女乱一区二区三区四区| 午夜福利国产精品视频| 午夜福利看片在线观看| 日本一区二区三区专线| 成人特黄A级毛片免费视频| 国产自拍在线一区二区三区| 国产办公室秘书无码精品99| 国产自产对白一区| 蕉岭县| 国产精品亚洲综合网一区| 福利一区二区在线播放| 亚洲国产午夜精品福利| 亚洲久久色成人一二三区| 国产极品粉嫩福利姬萌白酱| 亚洲国产欧美在线人成AAAA| 成人无号精品一区二区三区| 在线观看中文字幕国产码| 国产色无码专区在线观看| 无码中文字幕人妻在线一区| 最近高清中文在线字幕在线观看| 久久久久国产精品熟女影院| 国产蜜臀一区二区三区四区| 五月综合激情婷婷六月色窝| 日韩精品人妻黄色一级片| 韩国无码AV片午夜福利| 久久精品中文字幕免费| 内射无套内射国产精品视频| 婷婷久久香蕉五月综合加勒比| 国产麻豆成人传媒免费观看| 欧美极品色午夜在线视频| 亚洲性日韩精品一区二区| 久久精品午夜视频| 亚洲最大成人美女色av| 亚洲精品一区二区妖精| 极品少妇无套内射视频|