2025年10月30日,智源研究院在北京舉辦“悟界 · Emu系列技術交流會”,智源研究院院長王仲遠、多模態大模型負責人王鑫龍,發布了Emu3.5多模態世界大模型。這項工作的發布開啟了人工智能從語言學習向多模態世界學習演進的新紀元,率先指明了多模態 Scaling 的新范式。而Emu作為“悟界”系列模型的重要組成部分,標志著AI正加速從數字世界邁向物理世界的關鍵一步。
![]()
2024年10月,智源研究院發布了全球首個原生多模態世界模型Emu3,該模型只基于下一個token預測,無需擴散模型或組合方法,實現圖像、文本、視頻的大一統。模型一經上線便在技術社區引發了熱議。
一年后,智源發布Emu3.5,在“Next-Token Prediction”范式的基礎上,模擬人類自然學習方式,以自回歸架構實現了對多模態序列的“Next-State Prediction (NSP)”,獲得了可泛化的世界建模能力。
![]()
王仲遠表示:“通過 Emu3 我們驗證了自回歸架構實現多模態理解與生成大一統的可行性,Emu3.5 則開啟了多模態 Scaling 的新時代。更重要的是,它為通往更通用的、能夠理解并與物理世界交互的通用人工智能,提供了一條堅實的、可度量的實踐路徑。”
Emu3.5在超過 10 萬億 token 的大規模多模態數據基礎上展開訓練,其視頻數據訓練量時長實現從15年到 790年的躍升,參數量從8B上升至34B,揭示了原生多模態Scaling范式。其推理時,創新性地提出“離散擴散自適應”(Discrete Diffusion Adaptation,DiDA)技術,這一高效的混合推理預測方法,可以在不犧牲性能的前提下,將每張圖片的推理速度提升了近 20 倍,首次使自回歸模型的生成效率媲美頂尖的閉源擴散模型。
王鑫龍介紹:“EMU3.5突破了原生多模態的大規模預訓練、大規模強化學習和高效推理,指出了多模態世界模型的一種簡單易擴展的Scaling范式。”
EMU3.5 模型開始具備學習現實世界物理動態與因果的能力,為探索通用世界模型奠定了堅實的基礎。它具備三大重要特點。一是從意圖到規劃,模型能夠理解高層級的人類意圖(如“如何制作一艘宇宙飛船”“如何做咖啡拉花”),并自主生成詳細、連貫的多步驟行動路徑。二是動態世界模擬,模型在統一框架內無縫融合了對世界的理解、規劃與模擬,能夠預測物理動態、時空演化和長時程因果關系。三是可成為泛化交互基礎:其涌現出的因果推理和規劃能力,為 AI 與人類及物理環境進行泛化交互(如具身操控)提供了關鍵的認知基礎。
這些特點這讓新一代世界模型具備從“理解”到“行動”的全面智能能力,可生成行動指南、進行圖文編輯,并且同時具備物理直覺可開展多場景的探索。
![]()
Emu3.5 能以精準可控的方式完成文圖生成
展現出基于視覺理解的圖像生成能力
Emu3.5 的多模態指導能力:輸入“如何做芹菜餃子”,模型輸出有步驟的圖文指導
Emu3.5 在多模態指導中展現出卓越的時序一致性與步驟推理能力,讓復雜任務的執行過程一目了然。多模態敘事能力上,Emu 3.5能圍繞任意主題生成沉浸式的故事體驗,釋放無限想象力。此外模型可實現跨場景的具身操作,具備泛化的動作規劃與復雜交互能力,并能在世界探索中保持長距離一致性與可控交互,兼顧真實與虛擬的動態環境,實現自由探索與精準控制。
![]()
Emu 3.5 能圍繞任意主題生成沉浸式的體驗,上面是宇航員在探索中遇到皮卡丘的故事
只需一句“疊衣服”的簡單指令,Emu3.5便能自主規劃、拆解任務,并精確生成機器人完成一整套復雜的折疊動作
Emu3.5 能夠完成復雜的圖文編輯任務:進行時空變換后,依舊保持物體與場景的高度一致
同時,圖文編輯方面,它既能通過自然語言實現任意指令的圖片編輯與時空變換,也能以精準、智能、可控且富有創意的方式完成文圖生成,讓文字與視覺內容的融合更加自然與高保真。在基準測試中,Emu3.5 的表現超越了眾多知名的閉源模型。
王仲遠總結,以第一性原理看大模型未來,我們相信AI的下一次躍遷,將來自模型對現實世界的深層表征與可泛化行動指導的能力。我們期待與更多科研機構與產業伙伴一起,開創多模態世界大模型新范式,探索通往AGI的演進之路。
了解更多智源悟界·Emu3.5 可訪問:https://zh.emu.world/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.