![]()
機器之心發布
機器之心編輯部
當業界還在為自回歸與擴散這兩種主流技術路線孰優孰劣而激辯時,答案可能已經顯現。
![]()
今天,北京智源人工智能研究院(BAAI)重磅發布了其多模態系列模型的最新力作 ——悟界?Emu3.5
這不僅僅是一次常規的模型迭代,Emu3.5 被定義為一個 “多模態世界大模型”(Multimodal World Foudation Model)。
通過在超過 10 萬億的多模態 Token(主要源自互聯網視頻,總時長約 790 年)上進行端到端預訓練,Emu3.5 得以學習并內化了現實物理世界的動態規律。
這種原生的世界建模能力,是 Emu3.5 與其他生成模型的根本區別,并自然地外化為一系列高級功能:不僅能生成圖文并茂的故事,更展現出在長時程視覺指導、復雜圖像編輯、世界探索和具身操作等任務上的強大潛力。
不僅如此,Emu3.5 首次揭示了 “多模態 Scaling 范式” 的存在,這是繼語言預訓練、推理和后訓練之后,人工智能的第三條 Scaling 范式。也是團隊將其稱為 “世界大模型”(World Foundation Model)的原因。
智源在悟道 1.0 發布會上率先提出 “大模型” 一詞,他們相信本次悟界?Emu3.5 的發布,“世界大模型”(World Foundation Model)將開啟一個全新的探索方向。
為了破解自回歸模型在圖像生成上的速度瓶頸,團隊還提出了離散擴散自適應(DiDA)技術,將每張圖像的推理速度提升了近 20 倍,且幾乎沒有性能損失。這使得 Emu3.5 成為首個在推理速度和生成質量上,能與頂級閉源擴散模型相媲美的自回歸模型。
在多個基準測試中,Emu3.5 在圖像編輯任務上達到了與谷歌 Gemini-2.5-Flash-Image(Nano Banana)相當的性能,并在文本渲染和一系列交錯內容生成任務上顯著超越對手。
智源研究院宣布后續將開源 Emu3.5,以支持社區的進一步研究。
- 悟界?Emu3.5 項目主頁:https://zh.emu.world
- 悟界?Emu3.5 技術報告:https://zh.emu.world/Emu35_tech_report.pdf
Emu3.5:不止于生成
更在于對世界動態的理解和預測
現有的多模態大模型大多遵循一種 “多模塊” 模式:以一個強大的 LLM 作為基礎,這樣做固然以很好地利用已有的強大的 LLM,但這也意味著圖像、視頻、語音等其他模態需要先轉換到文本模態,再進行處理。各個模態之間仍是被區分開的。
智源去年發布的悟界?Emu3 提出了 “原生多模態” 的理念,只基于下一個 token 預測,實現了文本、圖像、視頻三種模態數據的理解和生成大一統。
Emu3.5 繼承了 Emu3 的極簡架構,基于一個 34B 的稠密 Transformer 模型。它的創新之處在于其模型的目標統一為 “下一狀態預測”(Next-State Prediciton)。
這種 “原生” 特性賦予了 Emu3.5 一種獨特的能力:生成交錯的視覺 - 語言輸出。當用戶給出一個指令,Emu3.5 的回答可以是一段文字,緊接著一幅圖像,然后是另一段解釋性的文字和下一幅圖像。這種能力使其天然勝任兩類極具挑戰性的新任務:
1.視覺敘事(Visual Narrative):Emu3.5 能生成一系列圖文并茂的卡片,起點處從牛頓與索尼克在森林相遇、提出一場關于速度與引力的挑戰開始,到兩個交流和思考,再到最后在月光下共同仰望星空,整個過程邏輯連貫,畫面風格統一。
![]()
2.視覺指導(Visual Guidance):模型可以生成分步的、帶有視覺示例的教程。例如,當被問及 “如何畫圖中的貓?”,Emu3.5 會生成幾個步驟,每個步驟都配有一張清晰的圖片,直觀地展示從輪廓到最終完成貓圖片的全過程。
![]()
這種能力標志著多模態模型從 “看圖說話” 或 “按需作畫” 的單一任務執行者,向著能夠進行連續、多步、跨模態創造的 “世界學習器” 邁出了關鍵一步。
十萬億多模態 Tokens 的世界基座模型訓練
悟界?Emu3.5 之所以能具備如此強大的原生多模態能力,其背后是一套極其龐大且精密的訓練流程。與以往模型主要依賴靜態的 “圖像 - 文本對” 不同,Emu3.5 的訓練數據主體,是包含超過 10 萬億 Tokens 的視覺 - 語言交錯數據,主要來源于互聯網視頻及其對應的語音轉錄文本,視頻時長總計約 790 年。
為什么視頻數據如此重要?因為靜態圖文對只能教會模型 “這是什么”,而連續的視頻幀和同步的解說,則能教會模型現實世界的物理動態、時空連續性和因果等規律。
整個流程分為四個核心階段:
1.大規模預訓練
這是奠定模型基礎的階段。Emu3.5 在超過 10 萬億 Tokens 的數據上,采用統一的 “下一狀態預測”(Next-State Predicttion)目標進行端到端訓練。這一階段分為兩步,第一步在 10 萬億 Tokens 上進行大規模基礎學習,第二步則在 3 萬億更高質量、更高分辨率和更豐富標注的數據上進行能力增強。
值得注意的是,模型在訓練過程中,驗證集上多個分布外(Out-of-Distribution)任務的損失持續下降,這表明模型涌現出了強大的泛化能力,而不僅僅是記憶訓練數據。
![]()
曲線表明 Emu3.5 實現了平滑且穩定的優化過程,并在多組驗證集上保持了一致的泛化能力
2.監督微調
在預訓練之后,模型在一個包含 1500 億樣本的高質量數據集上進行微調。這些數據覆蓋了從通用圖文生成、視覺問答,到前文提到的視覺敘事、視覺指導、世界探索和具身操作等多種復雜任務。SFT 階段的目標是建立一個統一的多模態交互接口,讓模型學會如何 “聽懂” 并完成各種具體指令,并促進不同任務之間的知識遷移。
3.大規模多模態強化學習
為了進一步提升多模態推理和生成質量,Emu3.5 首次在多模態領域進行大規模強化學習。團隊構建了一個復雜的多維度獎勵系統,能夠同時評估生成內容的美學質量、圖文對齊度、敘事連貫性、文本渲染準確度等多個指標。
通過在統一的獎勵空間中進行優化,模型學會在多個目標之間取得平衡,避免了 “獎勵欺騙”(Reward Hacking)現象,實現了跨任務的持續改進。
4.高效自回歸推理加速
為了解決自回歸模型在生成速度方面的挑戰,Emu3.5 團隊提出了一種叫做 “離散擴散自適應”(Discrete Diffusion Adaptation,DiDA)的方法。在不犧牲生成質量的前提下,Emu3.5 的單圖生成速度提升了約 20 倍。這意味著,Emu3.5 在保持自回歸模型強大可控性的同時,獲得了接近主流擴散模型的推理效率,成功彌合了兩種技術路線之間的鴻溝。
![]()
DiDA 的核心思想借鑒了擴散模型,但將其應用于離散的 Token 空間。它將自回歸模型的單向、順序預測,轉化為一種并行的、雙向的去噪過程。
從視覺敘事到世界探索:Emu3.5 的驚人能力
得益于其原生多模態架構、海量視頻數據訓練和 DiDA 加速,Emu3.5 在一系列任務中展現了 SOTA 或極具競爭力的表現。
通用圖像編輯與生成:在需要精確控制和多模態指令遵循的圖像編輯任務上,Emu3.5 表現出色,能夠實現開放世界的編輯和時空操作。在文字渲染方面,其準確性和自然度超越了包括 Gemini-2.5-Flash-Image(Nano Banana)在內的領先模型。
![]()
![]()
![]()
![]()
世界建模與探索:項目主頁中展示的 “世界探索” 和 “具身操作” 能力,使其與谷歌的 Genie 等前沿世界模型處于同一水平。Emu3.5 能夠根據指令,生成在虛擬環境中連續移動的視覺序列,并保持場景的幾何、語義和外觀一致性。
![]()
具身操作任務:它能將一個復雜的、長期的機器人操作任務(如倒水、折疊衣物)分解為一系列帶有語言指令和關鍵幀圖像的子任務,為訓練更通用的具身智能體提供了基礎。
![]()
這些能力的涌現,驗證了 Emu3.5 技術報告的核心觀點:通過在海量視頻數據上進行大規模訓練,模型能夠內化現實世界的運行規律,從而進行更深層次的模擬和推理。
無限生成,賦能具身智能的新引擎

Emu3.5 的突破,也為具身智能的發展補全了一塊關鍵的拼圖。
一直以來,具身智能領域都苦于缺乏高質量的數據,Emu3.5 可以作為一個無限數據生成器:它不僅能夠生成豐富多樣的虛擬環境和任務,大幅拓展 AI 學習和測試的空間,還能生成從高層目標到具體操作的分步規劃數據,幫助具身智能系統理解和實踐復雜任務的全過程。
智源研究院在很早就預判大模型正從數字世界加速邁入物理世界。“悟界” 系列模型,正是這一預判的集中體現。
Emu3.5 通過 “下一狀態預測” 和原生多模態融合,自然涌現出對時空、物理規律、因果等世界動態的內在理解,這正是機器人進行自主導航、精細操作、復雜決策等任務的基礎。
通往下一代多模態智能
智源悟界?Emu3.5 展示出了作為 “世界模型的基礎模型” 的巨大潛力。
通過原生多模態架構、以視頻為主的訓練數據和創新的 DiDA 加速技術,也向我們展示了如何構建一個更強大、更高效、更接近人類自然學習方式的世界模型。
當然,Emu3.5 也存在局限。技術報告中表示,其視覺分詞器(Tokenizer)的壓縮率仍有提升空間,DiDA 的加速潛力也未完全挖掘。同時,對于視覺敘事、世界探索等新能力的評估,也需要建立更系統化的基準。
它的開源,無疑將為全球 AI 研究社區提供一個強大的新基座。感興趣的讀者可以填寫報名表,申請獲取 Emu3.5 的內測資格。
報名鏈接:https://jwolpxeehx.feishu.cn/share/base/form/shrcn0dzwo2ZkN2Q0dveDBSfR3b
文中視頻鏈接:https://mp.weixin.qq.com/s/wXNDkNzKDG3rx9qZ9GkqgQ
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.