<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      LeCun預言成真!790年長視頻,煉出最強開源「世界模型」

      0
      分享至


      新智元報道

      編輯:桃子 好困

      【新智元導讀】AI第三種Scaling范式來臨!多模態原生世界模型Emu3.5出世,340億參數,基于790年長視頻數據完成訓練。即生3D世界,每張圖片推理速度飆升20倍。

      2025年,「世界模型」成為了AI巨頭們廝殺的戰場。

      谷歌發布的Genie 3,一句話即可生成一個720p實時模擬的新世界。甚至,網友將其稱之為「游戲引擎2.0時代」。

      李飛飛World Labs團隊也推出了一款實時生成世界模型——RTFM,僅用一塊H100渲染出3D世界。


      此外,還有Meta FAIR打造的「代碼世界模型」(CWM)、Runway的「通用世界模型」(GWM)、特斯拉的神經網絡模擬器等,AI界玩家們都在積極布局。

      尤其是,多模態領域的「世界模型」,成為了他們加碼的核心點。


      一直以來,李飛飛、LeCun等站隊「世界模型」AI大佬們認為,僅憑語言,AI是無法復制人類智能,還需要理解和模擬物理解釋。

      世界模型,便是終極答案。它可以模仿人類對周圍環境形成的「心智模型」來預測世界。

      就在上周,人工智能領域再次迎來一枚深水炸彈。

      北京智源研究院(BAAI)正式發布了其悟界·Emu系列的最新成果——Emu3.5。

      在技術交流會上,智源研究院院長王仲遠博士將其定位為「開啟多模態世界大模型新紀元」的里程碑。

      「并不一定所有的大模型技術路線都要完全跟隨別人已經走過的路,我們自己也在開創一些新的技術路徑?!雇踔龠h表示,「Emu系列是我們自己走出來的技術路線,我們是引領性的?!?/p>

      與當前主流的、將理解與生成分開處理的「模塊拼接式」多模態模型(如LLM+CLIP及DiT架構)不同,Emu3.5回歸「第一性原理」,像人類一樣從連續、長時程的視覺經驗中學習,用統一的自回歸架構實現了對多模態世界的原生理解與生成。

      「通過悟界·Emu3,我們驗證了自回歸架構實現多模態理解與生成大一統的可行性,」王仲遠表示,「從Emu3到Emu3.5,我們證明了多模態也存在一個Scaling的范式。」

      這個340億參數的模型,在長文本渲染、復雜圖像編輯、視覺故事生成等多個維度上,其表現足以讓業界驚嘆「Wow」。更重要的是,它所展現出的對物理世界動態、因果、時空、邏輯的深刻理解,預示著AI正加速從數字世界邁向物理世界。

      智源公開了長達45頁的詳盡技術報告,將其數據處理、模型架構、訓練方式、推理加速等技術細節全盤托出。


      項目主頁:https://zh.emu.world

      技術報告:https://arxiv.org/pdf/2510.26583

      這背后,是智源對「引領人工智能原始創新」的堅持,也是對未來技術路線的自信。

      悟界·Emu3.5為當前全球大模型競賽中的幾個根本性問題,提供了一條來自中國的、邏輯自洽且潛力巨大的原創解法:

      • 多模態應該如何統一?——通過原生的、端到端的自回歸「Next-State Prediction」范式

      • 世界模型應該學習什么?——學習蘊含了長時程、高一致性等世界知識的長視頻數據

      • 如何實現規?;?/strong>——借助「預訓練+多模態RL」的第三種Scaling范式,復用現有LLM基礎設施

      • 如何落地?——通過DiDA等推理加速技術,解決效率瓶頸


      第一性原理,像人一樣學習

      從Next-Token到Next-State

      「人類的學習,不是從文本學習開始的?!雇踔龠h在發布會上反復強調這個觀點。

      嬰兒睜開眼,首先感知的是視覺世界,通過觀察、交互,逐步理解物理規律、因果關系。語言是在這個基礎上發展起來的、用于溝通和泛化的工具。

      當前的大語言模型(LLM)在耗盡互聯網文本數據后,增長已顯疲態。而多模態領域,技術路線尚未收斂。主流的視頻和圖像生成模型,如Sora、Nano Banana,大多采用Diffusion Transformer(DiT)等混合架構,本質上仍是「拼裝」——理解和生成模塊分離,難以實現真正的、統一的智能。

      Emu系列從誕生之初,就選擇了另一條更艱難但更本質的道路:原生多模態。

      Emu3.5繼承并極大地發展了這一理念。它采用了一個極其簡潔但強大的統一范式:預測下一個狀態(Next-State Prediction)。

      與LLM預測下一個文本Token類似,Emu3.5將圖像、文本、乃至動作指令都「Token化」,置于一個統一的序列中,然后用一個單一的、端到端的自回歸Transformer模型來預測序列中的下一個Token。

      這個「Token」可以是一段文字描述,也可以是構成圖像的一個「視覺詞塊」,甚至可以是一個指導機器人手臂運動的指令。

      這種架構的優越性是顯而易見的:

      • 統一性它徹底打破了理解與生成的壁壘。模型在生成圖像時,是基于對上下文(包括之前的圖像和文字)的深刻理解。

      • 可擴展性它能完美復用為LLM構建的、已極其成熟的訓練、推理和強化學習基礎設施。這意味著,所有在LLM上驗證過的Scaling Law和優化技術,理論上都可以在Emu3.5上「再來一遍」。

      「我們終于可以在多模態大模型上實現Scaling up了?!雇踔龠h對此充滿信心。

      第三種Scaling范式

      790年長視頻數據與大規模多模態RL

      如果說統一的架構是骨架,那么海量且高質量的數據就是血肉。

      Emu3.5的訓練數據量堪稱恐怖:超過13萬億多模態Token。

      其核心,不再是短視頻剪輯或靜態的圖文對,而是累計時長達790年的互聯網長視頻,涵蓋了紀錄片、教學視頻、Vlog、游戲動畫等。

      「長視頻里有語音、有交互的文本,它有一個長的上下文,有一致性?!笶mu系列研發負責人王鑫龍解釋道。相比孤立的數據點,長視頻天然蘊含了豐富的時空連續性、因果邏輯和上下文一致性,是學習世界模型的絕佳養料。

      為了消化這些海量數據,智源團隊構建了一套復雜的自動化數據處理流水線,包括場景分割、語音轉文字(ASR)、關鍵幀提取、質量評估、冗余去除和多模態摘要生成等。

      在訓練上,Emu3.5的路徑清晰而堅定:

      • 大規模預訓練

      在超過10萬億Token上進行第一階段預訓練,讓模型學會基礎的多模態對齊和生成能力。整個訓練過程「非常穩定」,在多個未見過的下游任務驗證集上,損失函數隨著算力投入穩步下降,這正是「Scaling范式」存在的有力證據。

      • 大規模多模態強化學習(RL)

      這是Emu3.5的另一大創舉。眾所周知,強化學習是激發LLM(如GPT-4o、DeepSeek-R1)推理和遵循指令能力的關鍵。但將其應用于更復雜、序列更長的多模態領域,困難重重。

      得益于統一的自回歸架構,Emu3.5首次實現了統一多任務、多模態的強化學習。團隊構建了一個包含通用獎勵(如美學、圖文一致性)和任務特定獎勵(如OCR準確率、人臉ID保持)的復雜獎勵系統,通過GRPO算法,在統一的獎勵空間內進行優化。


      這套「大規模長視頻預訓練 + 大規模多模態RL」的組合拳,被王仲遠稱為繼語言模型預訓練、后訓練之后的「第三種Scaling范式」。它指明了一條道路:通過不斷增加視頻數據、模型參數和算力,多模態世界模型的能力將可預見地持續提升。

      黑科技DiDA

      自回歸模型推理飆升20倍

      自回歸模型「一個Token一個Token」的生成方式,導致其在生成高清圖像(通常一張圖就需要數千個Token)時速度很慢。這也是為什么Diffusion模型在生成領域長期占據主導地位。

      為了攻克這一難題,Emu3.5團隊研發了名為離散擴散自適應(Discrete Diffusion Adaptation, DiDA)的黑科技。

      DiDA的核心思想是,在模型完成大規模的自回歸預訓練和后訓練之后,通過一個輕量級的「適應」階段,將其從「逐個Token預測」的模式,轉換為「并行生成」的模式。


      具體來說,它借鑒了離散擴散的思想,將圖像生成過程變成一個「去噪」過程:模型不再是從左到右生成,而是一次性生成所有「帶噪聲」的視覺Token,然后在幾個步驟內并行地、雙向地修正它們,最終恢復出清晰的圖像。

      效果如何?每張圖片的推理速度提升約20倍,且幾乎沒有性能損失!

      這意味著,Emu3.5的自回歸模型,在推理效率上首次能夠與頂級的閉源Diffusion模型(如Midjourney)相媲美。這不僅是工程上的巨大勝利,更從根本上解決了原生多模態架構的商業化落地瓶頸。

      從圖像編輯到具身操作,開源最優

      理論的先進性最終要靠效果說話。Emu3.5交出的答卷,足以讓任何從業者感到興奮。

      • 頂級的Any-to-Image生成與編輯:

      Emu3.5不僅能生成帶有復雜公式、中英文對聯的高質量圖片,其圖像編輯能力更是達到了新的高度。在ImgEdit、GEdit-Bench等權威benchmarks上,Emu3.5的得分全面超越了包括Gemini 1.5 Flash、Qwen-VL-Max在內的所有公開模型。

      • 高層語義理解:

        將指定的人物、特定的場景和任意物品進行組合,Emu3.5可以創作出一個符合邏輯的全新世界,展現了其強大的想象力和世界構建能力。



      • 數字與空間理解

        指令「將圖片中標號為4的物體換成電影海報」,模型能精準定位并替換。


      • 視角變換

        給定一張建筑正面圖,指令「切換到俯視圖」,模型能像擁有3D建模能力一樣,合理地生成新視角。


      • 長時序、高一致性的「世界學習」能力:

      這部分能力,是Emu3.5作為「世界模型」的核心體現,也是它與其他生成模型拉開代差的地方。在與Gemini 2.5 Flash Image的并列生成對比中,Emu3.5在視覺敘事、視覺指導、世界探索和具身操作等任務上的勝率均顯著更高。

      • 視覺敘事(Visual Narrative)

        給定一個主題,Emu3.5能生成一系列圖文并茂、情節連貫、主角形象高度一致的繪本故事。這得益于其長序列建模能力,解決了傳統模型生成多圖時「張張換人」的痛點


      給圖里的寶寶寫個故事,要講他夏天晚上和螢火蟲玩

      • 視覺指導(Visual Guidance)

        如何倒水?如何疊衣服?Emu3.5能像一本活的說明書,通過「圖片+文字」的步驟,清晰地展示一個任務的全過程


      模型輸出結果:如何用黏土和顏料手工制作一個宇航員模型


      模型輸出結果:如何從種子開始種羽衣甘藍?

      • 世界探索(World Exploration)

      用戶可以用文字定義一個場景,如「一個陽光明媚的現代客廳」,然后通過「向左轉」、「向前走」等指令,模型會生成符合邏輯的、連續的探索畫面,仿佛置身于一個可交互的虛擬世界。這部分前面的視頻已經展示了。

      • 具身操作(Embodied Manipulation):

      這是Emu3.5最具想象力的應用之一。給定一個任務,如「用松靈機械臂把桌面收拾好,12 步完成」,模型能生成一個包含12個步驟的、由松靈機器人手臂執行的圖文序列。它不僅規劃了子任務,還生成了每個關鍵步驟的視覺狀態。這為解決具身智能領域「數據稀缺」的痛點提供了全新的思路——用世界模型生成海量的、泛化的仿真數據。


      智源研究院不僅發布了模型,更公開了詳盡的技術報告。這種開放的姿態,旨在邀請全球社區共同探索這條由中國開創的新路。「我們希望這條路后續成為主流的路?!雇踔龠h說,「登珠穆朗瑪峰南坡和北坡也許都可以登頂,我們希望我們走的是大家認可的一條路?!?/p>

      Emu3.5的參數僅為340億,使用的視頻數據不到互聯網公開數據的1%。它的能力上限,遠未觸及。

      未來隨著模型規模、數據規模的進一步擴大,這個「世界模型基座」還將帶來怎樣的驚喜,我們拭目以待。

      參考資料:

      https://zh.emu.world/

      https://arxiv.org/pdf/2510.26583

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      故事:賴昌星自白:我風流一生,但心里只住過兩個人,她勝過結發妻子

      故事:賴昌星自白:我風流一生,但心里只住過兩個人,她勝過結發妻子

      蕭竹輕語
      2025-11-03 17:25:34
      十五運:蒯紀聞雙響!上海2-2遭四川絕平,攜手粵遼鄂閩晉級八強

      十五運:蒯紀聞雙響!上海2-2遭四川絕平,攜手粵遼鄂閩晉級八強

      實事球是
      2025-11-05 18:56:19
      賴清德窩點被定位,美上將警告武統將至,島內喊話解放軍放棄武力

      賴清德窩點被定位,美上將警告武統將至,島內喊話解放軍放棄武力

      文史旺旺旺
      2025-11-04 20:10:05
      WTT冠軍賽:首位世界冠軍出局!日本隊遭首敗,林昀儒苦戰5局逆轉

      WTT冠軍賽:首位世界冠軍出局!日本隊遭首敗,林昀儒苦戰5局逆轉

      全言作品
      2025-11-05 19:28:31
      朝鮮專列進京有多離譜?金正恩來中國為何坐火車不坐飛機?

      朝鮮專列進京有多離譜?金正恩來中國為何坐火車不坐飛機?

      詩意世界
      2025-09-17 13:19:48
      欲哭無淚!跌幅近70%,從270萬跌到88萬,廣州一頭部樓盤房價崩了

      欲哭無淚!跌幅近70%,從270萬跌到88萬,廣州一頭部樓盤房價崩了

      火山詩話
      2025-11-04 05:49:04
      雷霆126-107勝快船,8連勝!這一戰我徹底看清6個現實:保羅老了

      雷霆126-107勝快船,8連勝!這一戰我徹底看清6個現實:保羅老了

      毒舌NBA
      2025-11-05 14:39:06
      45歲董潔河北巡店,生圖顯年輕,身材五五分引關注

      45歲董潔河北巡店,生圖顯年輕,身材五五分引關注

      暖心萌阿菇涼
      2025-11-04 19:46:19
      哈蘭德戴帽曼城5-0大勝 瓜帥:他比梅西C羅更強

      哈蘭德戴帽曼城5-0大勝 瓜帥:他比梅西C羅更強

      野薔薇觀察所
      2025-11-05 17:40:24
      緬甸突襲KK園區后爆“招聘潮”,有人被7萬美元轉賣

      緬甸突襲KK園區后爆“招聘潮”,有人被7萬美元轉賣

      紅星新聞
      2025-11-05 13:06:13
      如果在家突發心梗,黃金5分鐘自救法,快了解,關鍵時刻可自救

      如果在家突發心梗,黃金5分鐘自救法,快了解,關鍵時刻可自救

      風信子的花
      2025-10-24 23:59:39
      成都一處兇宅以起拍價26.6萬元拍賣,市場價約160萬元,已有70人報名

      成都一處兇宅以起拍價26.6萬元拍賣,市場價約160萬元,已有70人報名

      極目新聞
      2025-11-05 12:35:31
      小米“先收錢后造車”引眾怒!20萬訂單壓垮產能,律師:涉嫌欺詐

      小米“先收錢后造車”引眾怒!20萬訂單壓垮產能,律師:涉嫌欺詐

      吃瓜局
      2025-11-05 15:25:33
      統一進程公開條件!外交部強調:各方不得插手

      統一進程公開條件!外交部強調:各方不得插手

      娛樂督察中
      2025-11-05 11:42:41
      心梗去世的人飆升!醫生含淚苦勸:無論多大年紀,天冷堅守4原則

      心梗去世的人飆升!醫生含淚苦勸:無論多大年紀,天冷堅守4原則

      劉輝讀書
      2025-11-04 15:52:46
      這一次,英達終于反擊高調宣布喜訊,眾多明星前來捧場掙足了面子

      這一次,英達終于反擊高調宣布喜訊,眾多明星前來捧場掙足了面子

      以茶帶書
      2025-11-04 14:13:20
      鄰居家出門旅游后衛生間燈卻一直沒關,我連忙報警,警方破門后傻眼

      鄰居家出門旅游后衛生間燈卻一直沒關,我連忙報警,警方破門后傻眼

      懸案解密檔案
      2025-11-04 10:42:34
      63歲原市長,主動向組織交代問題!任職地5任市長落馬

      63歲原市長,主動向組織交代問題!任職地5任市長落馬

      上觀新聞
      2025-11-05 10:59:06
      確認了!開始大裁員!近5萬人面臨失業

      確認了!開始大裁員!近5萬人面臨失業

      浙江之聲
      2025-11-04 22:37:36
      西伯利亞有多可怕?零下73度,千斤存糧百罐腌菜,砍柴一個月才行

      西伯利亞有多可怕?零下73度,千斤存糧百罐腌菜,砍柴一個月才行

      霽寒飄雪
      2025-11-04 09:19:58
      2025-11-05 21:16:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      13794文章數 66238關注度
      往期回顧 全部

      科技要聞

      大轉彎!特朗普再提名馬斯克盟友任NASA局長

      頭條要聞

      神二十推遲返回 專家:厘米級空間碎片可致航天器損壞

      頭條要聞

      神二十推遲返回 專家:厘米級空間碎片可致航天器損壞

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發心臟病去世

      財經要聞

      事關加快建設金融強國 中央金融辦發聲

      汽車要聞

      智己LS9入局"9系"混戰 全尺寸SUV市場迎來新變量

      態度原創

      家居
      數碼
      健康
      手機
      軍事航空

      家居要聞

      別樣府院 暢享詩意生活

      數碼要聞

      華為智慧屏 MateTV 系列靈犀手寫筆參數公布,需用 7 號堿性電池

      超聲探頭會加重受傷情況嗎?

      手機要聞

      華為Mate 70 Air真機曝光:塑料中框,保留物理SIM卡槽

      軍事要聞

      美國“福特”號航母駛往加勒比海

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产精品尤物乱码一区二区| 7m精品福利视频导航| 无码人妻精品一区二区三区下载| 濮阳市| 亚洲va中文字幕无码久久不卡 | 2020国产欧洲精品网站| 久久天天躁狠狠躁夜夜婷| 四虎精品视频永久免费| 国产明星精品无码AV换脸| 国产成人av免费网址| 国产学生裸体无遮挡免费| 干中文字幕| 日日碰狠狠添天天爽五月婷| 丰满人妻一区二区三区色| 亚洲乱理伦片在线观看中字| 亚洲 中文 欧美 日韩 在线| 国产成人精品一区二区三| 日韩精品福利一二三专区| 亚洲青青草视频在线播放| 亚洲AV日韩AV综合在线观看 | 亚洲精品熟女一区二区| 色噜噜亚洲男人的天堂| 国产成年女人特黄特色大片免费 | 欧美不卡无线在线一二三区观| 无人区码一码二码三码区| 在线精品自拍亚洲第一区| 亚洲an日韩专区在线| 九九热免费在线视频观看| 动漫AV纯肉无码AV电影网| 亚洲色婷婷综合开心网| 推特国产午夜福利在线观看| 国产在线观看免费观看不卡| 国产精品亚洲五月天高清| 国产精品中文字幕自拍| 国产精品区一区第一页| 亚洲精品www久久久久久| 国产精品一区二区三区卡| 久久精品夜夜夜夜夜久久| 国产绿帽在线视频看| 日韩精品一二区在线观看| 一个色综合亚洲热色综合|