2025年10月30日,智源研究院(下稱“智源”)在北京舉辦“悟界·Emu系列技術(shù)交流會”,智源院長王仲遠、智源多模態(tài)大模型負責人王鑫龍,發(fā)布了Emu3.5多模態(tài)世界大模型。這項工作的發(fā)布開啟了AI從語言學習向多模態(tài)世界學習演進的新紀元,讓原生多模態(tài)的大規(guī)模預(yù)訓練、大規(guī)模強化學習和高效推理迎來了新突破,指明了多模態(tài) Scaling 的新范式,并證明了一條更簡潔、更具擴展性的技術(shù)路徑的可行性。與此同時,Emu作為“悟界”系列模型的重要組成部分,標志著AI正加速從數(shù)字世界邁向物理世界的關(guān)鍵一步。王仲遠表示:“在多模態(tài)模型和世界模型上,業(yè)內(nèi)沒有統(tǒng)一法則,大家都在探索。隨著模型的不斷研發(fā),我們相信多模態(tài)模型和世界模型應(yīng)該融合成一個更強大的新物種,那就是“多模態(tài)世界大模型”。因此,Emu3.5是我們對這一理念的開創(chuàng)性實踐,甚至我們認為智源可能定義并開啟了一個新賽道。”
![]()
遵循第一性原理,實現(xiàn)端到端原生多模態(tài)世界建模
據(jù)了解,Emu3.5遵循第一性原理,采用單一的自回歸Transformer架構(gòu),實現(xiàn)了端到端的原生多模態(tài)世界建模。它在超過 10 萬億 token 的大規(guī)模多模態(tài)數(shù)據(jù)基礎(chǔ)上展開訓練,其視頻數(shù)據(jù)訓練量時長實現(xiàn)從15年到 790年的躍升,參數(shù)量從8B上升至34B。在對這一模型進行推理時,智源提出“離散擴散自適應(yīng)”(Discrete Diffusion Adaptation,DiDA)技術(shù),這項技術(shù)是一種高效的混合推理預(yù)測方法,能夠在不犧牲性能的前提下,將每張圖片的推理速度提升近 20 倍,讓自回歸模型的生成效率得以首次媲美頂尖的閉源擴散模型。
為什么說Emu3.5是“世界模型”?它是如何“理解世界”的?據(jù)了解,智源之所以將Emu3.5稱為“世界模型”,因為它通過單一、統(tǒng)一的訓練目標——“預(yù)測下一個狀態(tài)”(Next-State Prediction),從海量的多模態(tài)數(shù)據(jù)中,自發(fā)學習并內(nèi)化了物理世界的運行規(guī)律、時空連續(xù)性以及事物間的因果關(guān)系。它并非被硬編碼灌輸這些知識,這種對真實世界物理動態(tài)的內(nèi)在表征,使其能夠進行長時程規(guī)劃和與環(huán)境進行可泛化的交互。
那么,Emu3.5與當前其他的多模態(tài)模型(如視頻生成模型)有什么本質(zhì)區(qū)別?作為一個多模態(tài)世界大模型,與專注于內(nèi)容(如視頻)“生成”的模型不同的是,Emu3.5的核心在于“理解、預(yù)測與規(guī)劃”,它不僅能生成對未來的預(yù)測,更致力于構(gòu)建一個關(guān)于世界如何運作的內(nèi)在模型。兩者本質(zhì)區(qū)別在于:Emu3.5不僅僅能生成內(nèi)容,還構(gòu)建了一個內(nèi)在世界模型的預(yù)測系統(tǒng),能夠從大規(guī)模多模態(tài)數(shù)據(jù)中原生學會意圖解析、因果推理和多步行動路徑規(guī)劃的能力。
悟界·Emu3.5模型具備學習現(xiàn)實世界物理動態(tài)與因果的能力,為探索通用世界模型奠定了堅實的基礎(chǔ)。它具備三大重要特點:一是具備從意圖到規(guī)劃的特點,模型能夠理解高層級的人類意圖(如“如何制作一艘宇宙飛船”“如何做咖啡拉花”),并自主生成詳細、連貫的多步驟行動路徑。二是具備動態(tài)世界模擬的特點,模型在統(tǒng)一框架內(nèi)無縫融合了對世界的理解、規(guī)劃與模擬,能夠預(yù)測物理動態(tài)、時空演化和長時程因果關(guān)系。三是可以成為泛化交互的基礎(chǔ),其涌現(xiàn)出的因果推理和規(guī)劃能力,為 AI 與人類及物理環(huán)境進行泛化交互如具身操控提供了關(guān)鍵的認知基礎(chǔ)。這些特點這讓新一代世界模型具備從“理解”到“行動”的全面智能能力,可以生成行動指南和進行圖文編輯。并且具備一定的物理直覺,因此可以開展多場景的探索。
Emu3.5 在多模態(tài)指導中展現(xiàn)出卓越的時序一致性與步驟推理能力,讓復雜任務(wù)的執(zhí)行過程一目了然。多模態(tài)敘事能力上,Emu 3.5能圍繞任意主題生成沉浸式的故事體驗,釋放無限想象力。此外模型可實現(xiàn)跨場景的具身操作,具備泛化的動作規(guī)劃與復雜交互能力,并能在世界探索中保持長距離一致性與可控交互,兼顧真實與虛擬的動態(tài)環(huán)境,實現(xiàn)自由探索與精準控制。同時,在圖文編輯方面,它既能通過自然語言實現(xiàn)任意指令的圖片編輯與時空變換,也能以精準、智能、可控且富有創(chuàng)意的方式完成文圖生成,讓文字與視覺內(nèi)容的融合更加自然與高保真。在基準測試中,Emu3.5 的表現(xiàn)超越了眾多知名的閉源模型。
開創(chuàng)多模態(tài)世界大模型新范式,探索通往AGI的演進之路
據(jù)介紹,智源的定位是做高校做不了、企業(yè)不愿意做的AI創(chuàng)新型研究,創(chuàng)新引領(lǐng)是其主要的使命和愿景。智源是國內(nèi)最早開始從事大模型研發(fā)的機構(gòu),過去幾年智源在大模型方面做了不少工作,成功研發(fā)了悟道1.0、2.0和3.0,很多耳熟能詳?shù)拇竽P腿宋镒畛醵荚谥窃囱芯吭簭氖卵邪l(fā),最后通過智源把相關(guān)項目孵化了出去。近兩年,智源開始將重點放在多模態(tài)和面向物理世界的AI研發(fā)工作上。之所以聚焦這一重點,是基于智源對于未來技術(shù)的研判,即大模型正在加速從數(shù)字世界走進物理世界。如今,整個技術(shù)路徑演進也正在按照智源所預(yù)測的大致方向在走。很多大家耳熟能詳?shù)囊曨l生成模型和圖像生成模型,基本上都是用的 DiT(Diffusion Transformer)架構(gòu)。因為Diffusion 和 Transformer是兩種不同的架構(gòu),在實際融合的過程中,就會帶來巨大的挑戰(zhàn)。從2024年以來智源一直在倡導并希望能夠引領(lǐng)原生多模態(tài)大模型的研發(fā),把多模態(tài)的理解和多模態(tài)的生成統(tǒng)一起來。因為只有這樣,才能夠真正讓AI看到、感知和理解這個世界,然后再與硬件結(jié)合。正因此,具身智能也是過去這兩年智源重點發(fā)力的研究方向,最終其希望AI能夠進入物理世界,真正解決人類生活中的更多現(xiàn)實問題。
大約一年前左右,智源于2024年10月發(fā)布了全球首個原生多模態(tài)世界模型悟界·Emu3,該模型只基于下一個token預(yù)測,無需擴散模型或組合方法,實現(xiàn)圖像、文本、視頻的大一統(tǒng)。模型一經(jīng)上線便在技術(shù)社區(qū)引發(fā)了熱議。一年后,智源此次發(fā)布的Emu3.5,在“Next-Token Prediction”范式的基礎(chǔ)上,模擬了人類自然學習方式,以自回歸架構(gòu)實現(xiàn)了對多模態(tài)序列的“下一狀態(tài)預(yù)測(NSP,Next-State Prediction)”,獲得了可泛化的世界建模能力,并且觀察到多模態(tài)大模型性能可以像大語言模型一樣隨數(shù)據(jù)、計算和參數(shù)規(guī)模的增長而提升。王仲遠表示:“通過 Emu3 我們驗證了自回歸架構(gòu)實現(xiàn)多模態(tài)理解與生成大一統(tǒng)的可行性,Emu3.5 則開啟了多模態(tài) Scaling 的新時代。更重要的是,它為通往更通用的、能夠理解并與物理世界交互的通用AI,提供了一條堅實的、可度量的實踐路徑。”
王仲遠總結(jié)稱:“以第一性原理來看大模型的未來的話,我們相信AI的下一次躍遷將來自模型對現(xiàn)實世界的深層表征與可泛化行動指導的能力。我們期待與更多科研機構(gòu)與產(chǎn)業(yè)伙伴一起,開創(chuàng)多模態(tài)世界大模型新范式,探索通往AGI的演進之路。”接下來,智源將逐步面向?qū)W術(shù)界合作伙伴開放Emu3.5的科研體驗版,以便能夠促進基礎(chǔ)科學的探索與合作。同時,智源將陸續(xù)通過其官方渠道啟動面向產(chǎn)業(yè)界和開發(fā)者的邀請制測試。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.