<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      LeCun預言成真!790年長視頻,煉出最強開源「世界模型」

      0
      分享至


      新智元報道

      編輯:桃子 好困

      【新智元導讀】AI第三種Scaling范式來臨!多模態原生世界模型Emu3.5出世,340億參數,基于790年長視頻數據完成訓練。即生3D世界,每張圖片推理速度飆升20倍。

      2025年,「世界模型」成為了AI巨頭們廝殺的戰場。

      谷歌發布的Genie 3,一句話即可生成一個720p實時模擬的新世界。甚至,網友將其稱之為「游戲引擎2.0時代」。

      李飛飛World Labs團隊也推出了一款實時生成世界模型——RTFM,僅用一塊H100渲染出3D世界。


      此外,還有Meta FAIR打造的「代碼世界模型」(CWM)、Runway的「通用世界模型」(GWM)、特斯拉的神經網絡模擬器等,AI界玩家們都在積極布局。

      尤其是,多模態領域的「世界模型」,成為了他們加碼的核心點。


      一直以來,李飛飛、LeCun等站隊「世界模型」AI大佬們認為,僅憑語言,AI是無法復制人類智能,還需要理解和模擬物理解釋。

      世界模型,便是終極答案。它可以模仿人類對周圍環境形成的「心智模型」來預測世界。

      就在上周,人工智能領域再次迎來一枚深水炸彈。

      北京智源研究院(BAAI)正式發布了其悟界·Emu系列的最新成果——Emu3.5。

      在技術交流會上,智源研究院院長王仲遠博士將其定位為「開啟多模態世界大模型新紀元」的里程碑。

      「并不一定所有的大模型技術路線都要完全跟隨別人已經走過的路,我們自己也在開創一些新的技術路徑?!雇踔龠h表示,「Emu系列是我們自己走出來的技術路線,我們是引領性的。」

      與當前主流的、將理解與生成分開處理的「模塊拼接式」多模態模型(如LLM+CLIP及DiT架構)不同,Emu3.5回歸「第一性原理」,像人類一樣從連續、長時程的視覺經驗中學習,用統一的自回歸架構實現了對多模態世界的原生理解與生成。

      「通過悟界·Emu3,我們驗證了自回歸架構實現多模態理解與生成大一統的可行性,」王仲遠表示,「從Emu3到Emu3.5,我們證明了多模態也存在一個Scaling的范式?!?/p>

      這個340億參數的模型,在長文本渲染、復雜圖像編輯、視覺故事生成等多個維度上,其表現足以讓業界驚嘆「Wow」。更重要的是,它所展現出的對物理世界動態、因果、時空、邏輯的深刻理解,預示著AI正加速從數字世界邁向物理世界。

      智源公開了長達45頁的詳盡技術報告,將其數據處理、模型架構、訓練方式、推理加速等技術細節全盤托出。


      項目主頁:https://zh.emu.world

      技術報告:https://arxiv.org/pdf/2510.26583

      這背后,是智源對「引領人工智能原始創新」的堅持,也是對未來技術路線的自信。

      悟界·Emu3.5為當前全球大模型競賽中的幾個根本性問題,提供了一條來自中國的、邏輯自洽且潛力巨大的原創解法:

      • 多模態應該如何統一?——通過原生的、端到端的自回歸「Next-State Prediction」范式

      • 世界模型應該學習什么?——學習蘊含了長時程、高一致性等世界知識的長視頻數據

      • 如何實現規?;??——借助「預訓練+多模態RL」的第三種Scaling范式,復用現有LLM基礎設施

      • 如何落地?——通過DiDA等推理加速技術,解決效率瓶頸


      第一性原理,像人一樣學習

      從Next-Token到Next-State

      「人類的學習,不是從文本學習開始的?!雇踔龠h在發布會上反復強調這個觀點。

      嬰兒睜開眼,首先感知的是視覺世界,通過觀察、交互,逐步理解物理規律、因果關系。語言是在這個基礎上發展起來的、用于溝通和泛化的工具。

      當前的大語言模型(LLM)在耗盡互聯網文本數據后,增長已顯疲態。而多模態領域,技術路線尚未收斂。主流的視頻和圖像生成模型,如Sora、Nano Banana,大多采用Diffusion Transformer(DiT)等混合架構,本質上仍是「拼裝」——理解和生成模塊分離,難以實現真正的、統一的智能。

      Emu系列從誕生之初,就選擇了另一條更艱難但更本質的道路:原生多模態。

      Emu3.5繼承并極大地發展了這一理念。它采用了一個極其簡潔但強大的統一范式:預測下一個狀態(Next-State Prediction)。

      與LLM預測下一個文本Token類似,Emu3.5將圖像、文本、乃至動作指令都「Token化」,置于一個統一的序列中,然后用一個單一的、端到端的自回歸Transformer模型來預測序列中的下一個Token。

      這個「Token」可以是一段文字描述,也可以是構成圖像的一個「視覺詞塊」,甚至可以是一個指導機器人手臂運動的指令。

      這種架構的優越性是顯而易見的:

      • 統一性它徹底打破了理解與生成的壁壘。模型在生成圖像時,是基于對上下文(包括之前的圖像和文字)的深刻理解。

      • 可擴展性它能完美復用為LLM構建的、已極其成熟的訓練、推理和強化學習基礎設施。這意味著,所有在LLM上驗證過的Scaling Law和優化技術,理論上都可以在Emu3.5上「再來一遍」。

      「我們終于可以在多模態大模型上實現Scaling up了?!雇踔龠h對此充滿信心。

      第三種Scaling范式

      790年長視頻數據與大規模多模態RL

      如果說統一的架構是骨架,那么海量且高質量的數據就是血肉。

      Emu3.5的訓練數據量堪稱恐怖:超過13萬億多模態Token。

      其核心,不再是短視頻剪輯或靜態的圖文對,而是累計時長達790年的互聯網長視頻,涵蓋了紀錄片、教學視頻、Vlog、游戲動畫等。

      「長視頻里有語音、有交互的文本,它有一個長的上下文,有一致性?!笶mu系列研發負責人王鑫龍解釋道。相比孤立的數據點,長視頻天然蘊含了豐富的時空連續性、因果邏輯和上下文一致性,是學習世界模型的絕佳養料。

      為了消化這些海量數據,智源團隊構建了一套復雜的自動化數據處理流水線,包括場景分割、語音轉文字(ASR)、關鍵幀提取、質量評估、冗余去除和多模態摘要生成等。

      在訓練上,Emu3.5的路徑清晰而堅定:

      • 大規模預訓練

      在超過10萬億Token上進行第一階段預訓練,讓模型學會基礎的多模態對齊和生成能力。整個訓練過程「非常穩定」,在多個未見過的下游任務驗證集上,損失函數隨著算力投入穩步下降,這正是「Scaling范式」存在的有力證據。

      • 大規模多模態強化學習(RL)

      這是Emu3.5的另一大創舉。眾所周知,強化學習是激發LLM(如GPT-4o、DeepSeek-R1)推理和遵循指令能力的關鍵。但將其應用于更復雜、序列更長的多模態領域,困難重重。

      得益于統一的自回歸架構,Emu3.5首次實現了統一多任務、多模態的強化學習。團隊構建了一個包含通用獎勵(如美學、圖文一致性)和任務特定獎勵(如OCR準確率、人臉ID保持)的復雜獎勵系統,通過GRPO算法,在統一的獎勵空間內進行優化。


      這套「大規模長視頻預訓練 + 大規模多模態RL」的組合拳,被王仲遠稱為繼語言模型預訓練、后訓練之后的「第三種Scaling范式」。它指明了一條道路:通過不斷增加視頻數據、模型參數和算力,多模態世界模型的能力將可預見地持續提升。

      黑科技DiDA

      自回歸模型推理飆升20倍

      自回歸模型「一個Token一個Token」的生成方式,導致其在生成高清圖像(通常一張圖就需要數千個Token)時速度很慢。這也是為什么Diffusion模型在生成領域長期占據主導地位。

      為了攻克這一難題,Emu3.5團隊研發了名為離散擴散自適應(Discrete Diffusion Adaptation, DiDA)的黑科技。

      DiDA的核心思想是,在模型完成大規模的自回歸預訓練和后訓練之后,通過一個輕量級的「適應」階段,將其從「逐個Token預測」的模式,轉換為「并行生成」的模式。


      具體來說,它借鑒了離散擴散的思想,將圖像生成過程變成一個「去噪」過程:模型不再是從左到右生成,而是一次性生成所有「帶噪聲」的視覺Token,然后在幾個步驟內并行地、雙向地修正它們,最終恢復出清晰的圖像。

      效果如何?每張圖片的推理速度提升約20倍,且幾乎沒有性能損失!

      這意味著,Emu3.5的自回歸模型,在推理效率上首次能夠與頂級的閉源Diffusion模型(如Midjourney)相媲美。這不僅是工程上的巨大勝利,更從根本上解決了原生多模態架構的商業化落地瓶頸。

      從圖像編輯到具身操作,開源最優

      理論的先進性最終要靠效果說話。Emu3.5交出的答卷,足以讓任何從業者感到興奮。

      • 頂級的Any-to-Image生成與編輯:

      Emu3.5不僅能生成帶有復雜公式、中英文對聯的高質量圖片,其圖像編輯能力更是達到了新的高度。在ImgEdit、GEdit-Bench等權威benchmarks上,Emu3.5的得分全面超越了包括Gemini 1.5 Flash、Qwen-VL-Max在內的所有公開模型。

      • 高層語義理解:

        將指定的人物、特定的場景和任意物品進行組合,Emu3.5可以創作出一個符合邏輯的全新世界,展現了其強大的想象力和世界構建能力。



      • 數字與空間理解

        指令「將圖片中標號為4的物體換成電影海報」,模型能精準定位并替換。


      • 視角變換

        給定一張建筑正面圖,指令「切換到俯視圖」,模型能像擁有3D建模能力一樣,合理地生成新視角。


      • 長時序、高一致性的「世界學習」能力:

      這部分能力,是Emu3.5作為「世界模型」的核心體現,也是它與其他生成模型拉開代差的地方。在與Gemini 2.5 Flash Image的并列生成對比中,Emu3.5在視覺敘事、視覺指導、世界探索和具身操作等任務上的勝率均顯著更高。

      • 視覺敘事(Visual Narrative)

        給定一個主題,Emu3.5能生成一系列圖文并茂、情節連貫、主角形象高度一致的繪本故事。這得益于其長序列建模能力,解決了傳統模型生成多圖時「張張換人」的痛點


      給圖里的寶寶寫個故事,要講他夏天晚上和螢火蟲玩

      • 視覺指導(Visual Guidance)

        如何倒水?如何疊衣服?Emu3.5能像一本活的說明書,通過「圖片+文字」的步驟,清晰地展示一個任務的全過程


      模型輸出結果:如何用黏土和顏料手工制作一個宇航員模型


      模型輸出結果:如何從種子開始種羽衣甘藍?

      • 世界探索(World Exploration)

      用戶可以用文字定義一個場景,如「一個陽光明媚的現代客廳」,然后通過「向左轉」、「向前走」等指令,模型會生成符合邏輯的、連續的探索畫面,仿佛置身于一個可交互的虛擬世界。這部分前面的視頻已經展示了。

      • 具身操作(Embodied Manipulation):

      這是Emu3.5最具想象力的應用之一。給定一個任務,如「用松靈機械臂把桌面收拾好,12 步完成」,模型能生成一個包含12個步驟的、由松靈機器人手臂執行的圖文序列。它不僅規劃了子任務,還生成了每個關鍵步驟的視覺狀態。這為解決具身智能領域「數據稀缺」的痛點提供了全新的思路——用世界模型生成海量的、泛化的仿真數據。


      智源研究院不僅發布了模型,更公開了詳盡的技術報告。這種開放的姿態,旨在邀請全球社區共同探索這條由中國開創的新路。「我們希望這條路后續成為主流的路?!雇踔龠h說,「登珠穆朗瑪峰南坡和北坡也許都可以登頂,我們希望我們走的是大家認可的一條路?!?/p>

      Emu3.5的參數僅為340億,使用的視頻數據不到互聯網公開數據的1%。它的能力上限,遠未觸及。

      未來隨著模型規模、數據規模的進一步擴大,這個「世界模型基座」還將帶來怎樣的驚喜,我們拭目以待。

      參考資料:

      https://zh.emu.world/

      https://arxiv.org/pdf/2510.26583

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      比緬北更恐怖!曾經的旅游勝地,如今黃賭毒俱全,性交易隨處可見

      比緬北更恐怖!曾經的旅游勝地,如今黃賭毒俱全,性交易隨處可見

      來科點譜
      2025-10-24 09:25:32
      上海人的酒席規矩太奇葩!不拼酒不勸酒,最后一條全國罕見!

      上海人的酒席規矩太奇葩!不拼酒不勸酒,最后一條全國罕見!

      小小包工頭阿汾
      2025-11-05 11:02:22
      迷你羅助葡萄牙U16奪冠,喬治娜和C羅母親現場見證

      迷你羅助葡萄牙U16奪冠,喬治娜和C羅母親現場見證

      懂球帝
      2025-11-05 03:05:14
      小三竟是10年白月光!鳳凰男律師帶空姐孕檢,婆婆態度遭痛批

      小三竟是10年白月光!鳳凰男律師帶空姐孕檢,婆婆態度遭痛批

      公子麥少
      2025-11-05 15:33:03
      首臺“京東汽車”下線,超8成用戶期待價格低于10萬

      首臺“京東汽車”下線,超8成用戶期待價格低于10萬

      藍鯨新聞
      2025-11-05 12:45:03
      10年湖北打工妹嫁英國高管,結婚8 年持刀捅死丈夫,如今下場唏噓

      10年湖北打工妹嫁英國高管,結婚8 年持刀捅死丈夫,如今下場唏噓

      銀河史記
      2025-11-04 20:17:37
      鄰居家出門旅游后衛生間燈卻一直沒關,我連忙報警,警方破門后傻眼

      鄰居家出門旅游后衛生間燈卻一直沒關,我連忙報警,警方破門后傻眼

      懸案解密檔案
      2025-11-04 10:42:34
      揭秘朝鮮“不倒翁”金永南,曾是志愿軍留朝鮮,忠心輔佐金家三代

      揭秘朝鮮“不倒翁”金永南,曾是志愿軍留朝鮮,忠心輔佐金家三代

      環球熱點快評
      2025-11-05 08:53:45
      年輕人不買賬,中年人喝不起!茅臺跌破1600,終于承認只是瓶酒?

      年輕人不買賬,中年人喝不起!茅臺跌破1600,終于承認只是瓶酒?

      金融八卦女
      2025-11-05 13:57:48
      一位72歲靠運送垃圾為生的老人,卻在租住的簡陋地下室里,研究哥德巴赫猜想!完全是“競賽級別”

      一位72歲靠運送垃圾為生的老人,卻在租住的簡陋地下室里,研究哥德巴赫猜想!完全是“競賽級別”

      觀威海
      2025-11-04 09:58:04
      可甜可御的小姐姐太好看,白色掛脖上衣搭粉色瑜伽褲,甜美又柔和

      可甜可御的小姐姐太好看,白色掛脖上衣搭粉色瑜伽褲,甜美又柔和

      小喬古裝漢服
      2025-11-05 15:54:00
      山東隊跳水首金!全運會男子個人全能:練俊杰穩健發揮輕松奪冠

      山東隊跳水首金!全運會男子個人全能:練俊杰穩健發揮輕松奪冠

      全景體育V
      2025-11-05 13:12:44
      被解雇后沒工作,51歲納什已經能領退休金了,他每年能拿多少錢?

      被解雇后沒工作,51歲納什已經能領退休金了,他每年能拿多少錢?

      大西體育
      2025-11-05 13:29:33
      南大食堂店員:999元帝王蟹將繼續供應

      南大食堂店員:999元帝王蟹將繼續供應

      極目新聞
      2025-11-05 15:16:09
      上海一老小區居民因加裝電梯引爭執,調解時一老人猝死 被告被判賠12萬元

      上海一老小區居民因加裝電梯引爭執,調解時一老人猝死 被告被判賠12萬元

      紅星新聞
      2025-11-04 16:41:16
      2025年前三季度結婚登記515.2萬對

      2025年前三季度結婚登記515.2萬對

      第一財經資訊
      2025-11-05 10:45:09
      到了到了!官方確認:已抵達浙江!

      到了到了!官方確認:已抵達浙江!

      FM93浙江交通之聲
      2025-11-04 17:29:52
      突發!亞太股市,全線大跌!韓國緊急“拔網線”!發生了什么?

      突發!亞太股市,全線大跌!韓國緊急“拔網線”!發生了什么?

      證券時報e公司
      2025-11-05 09:50:13
      被曝核酸造假,半年斂財4.5億,核酸大王張核子最終下場如何?

      被曝核酸造假,半年斂財4.5億,核酸大王張核子最終下場如何?

      蜉蝣說
      2025-10-05 23:57:52
      全紅嬋胖了一圈,張家齊捏嬋寶肚上贅肉,與陳芋汐體型對比明顯

      全紅嬋胖了一圈,張家齊捏嬋寶肚上贅肉,與陳芋汐體型對比明顯

      懂球社
      2025-11-04 14:51:04
      2025-11-05 16:56:50
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      13789文章數 66237關注度
      往期回顧 全部

      科技要聞

      大轉彎!特朗普再提名馬斯克盟友任NASA局長

      頭條要聞

      苦等14年 50歲貝克漢姆獲封英國王室最高爵士頭銜

      頭條要聞

      苦等14年 50歲貝克漢姆獲封英國王室最高爵士頭銜

      體育要聞

      開拓者的11號簽,變成了灰熊未來核心?

      娛樂要聞

      港星林尚武突發心臟病去世

      財經要聞

      中方官宣!對美關稅,調整!

      汽車要聞

      首家"A+H"豪華新能源車企 賽力斯登陸港交所主板

      態度原創

      房產
      健康
      教育
      旅游
      家居

      房產要聞

      最新!海南樓市10月熱銷榜單出爐!

      超聲探頭會加重受傷情況嗎?

      教育要聞

      解一元一次方程!

      旅游要聞

      湖南張家界:色彩斑斕天子山

      家居要聞

      別樣府院 暢享詩意生活

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲成色精品一二三区| 成人免费看片又大又黄| 荔波县| 好男人社区在线www| 精品国产午夜福利在线观看| 人人妻人人澡人人爽欧美一区双| 日韩精品人妻中文字幕| 国产精品免费中文字幕| 成年女人片免费视频播放A| 亚洲精品无码乱码成人| 高清国产一区二区无遮挡| 一区二区亚洲精品国产精| 日本中文字幕乱码免费| 日本三级香港三级人妇99| 国产美女在线观看大长腿| 97精品久久九九中文字幕| 亚洲一二三区精品美妇| 一级国产在线观看高清| 欧美www在线观看| 国产91午夜福利精品| 日韩人妻少妇一区二区三区 | 国产人妻大战黑人第1集| 亚洲成av人片乱码色午夜| 中文字幕av一区二区| 抚宁县| 免费无码AV一区二区波多野结衣| 成人国产精品一区二区不卡| 国产三级精品三级在线观看| 国语精品自产拍在线观看网站| 国产一区二区三区不卡视频| 狠狠色丁香婷婷综合尤物| 盐城市| 人妻中文字幕一区二区三 | 日韩精品二区三区四区| 最近中文字幕国产精品| 狂野欧美性猛交免费视频| 欧美日本一区二区视频在线观看| 色狠狠综合天天综合综合| 亚洲人成网站色www| 一区二区三区国产综合在线| 国产精品一区二区久久精品|