網易首頁 > 網易號 > 正文申請入駐

剛剛，智源悟界·Emu3.5登場，原生具備世界建模能力

2025-10-30 18:05:47　來源: 機器之心Pro

北京舉報

分享至

機器之心發布

機器之心編輯部

當業界還在為自回歸與擴散這兩種主流技術路線孰優孰劣而激辯時，答案可能已經顯現。

今天，北京智源人工智能研究院（BAAI）重磅發布了其多模態系列模型的最新力作 ——悟界?Emu3.5

這不僅僅是一次常規的模型迭代，Emu3.5 被定義為一個 “多模態世界大模型”（Multimodal World Foudation Model）。

通過在超過 10 萬億的多模態 Token（主要源自互聯網視頻，總時長約 790 年）上進行端到端預訓練，Emu3.5 得以學習并內化了現實物理世界的動態規律。

這種原生的世界建模能力，是 Emu3.5 與其他生成模型的根本區別，并自然地外化為一系列高級功能：不僅能生成圖文并茂的故事，更展現出在長時程視覺指導、復雜圖像編輯、世界探索和具身操作等任務上的強大潛力。

不僅如此，Emu3.5 首次揭示了 “多模態 Scaling 范式” 的存在，這是繼語言預訓練、推理和后訓練之后，人工智能的第三條 Scaling 范式。也是團隊將其稱為 “世界大模型”（World Foundation Model）的原因。

智源在悟道 1.0 發布會上率先提出 “大模型” 一詞，他們相信本次悟界?Emu3.5 的發布，“世界大模型”（World Foundation Model）將開啟一個全新的探索方向。

為了破解自回歸模型在圖像生成上的速度瓶頸，團隊還提出了離散擴散自適應（DiDA）技術，將每張圖像的推理速度提升了近 20 倍，且幾乎沒有性能損失。這使得 Emu3.5 成為首個在推理速度和生成質量上，能與頂級閉源擴散模型相媲美的自回歸模型。

在多個基準測試中，Emu3.5 在圖像編輯任務上達到了與谷歌 Gemini-2.5-Flash-Image（Nano Banana）相當的性能，并在文本渲染和一系列交錯內容生成任務上顯著超越對手。

智源研究院宣布后續將開源 Emu3.5，以支持社區的進一步研究。

悟界?Emu3.5 項目主頁：https://zh.emu.world
悟界?Emu3.5 技術報告：https://zh.emu.world/Emu35_tech_report.pdf

Emu3.5：不止于生成

更在于對世界動態的理解和預測

現有的多模態大模型大多遵循一種 “多模塊” 模式：以一個強大的 LLM 作為基礎，這樣做固然以很好地利用已有的強大的 LLM，但這也意味著圖像、視頻、語音等其他模態需要先轉換到文本模態，再進行處理。各個模態之間仍是被區分開的。

智源去年發布的悟界?Emu3 提出了 “原生多模態” 的理念，只基于下一個 token 預測，實現了文本、圖像、視頻三種模態數據的理解和生成大一統。

Emu3.5 繼承了 Emu3 的極簡架構，基于一個 34B 的稠密 Transformer 模型。它的創新之處在于其模型的目標統一為 “下一狀態預測”（Next-State Prediciton）。

這種 “原生” 特性賦予了 Emu3.5 一種獨特的能力：生成交錯的視覺 - 語言輸出。當用戶給出一個指令，Emu3.5 的回答可以是一段文字，緊接著一幅圖像，然后是另一段解釋性的文字和下一幅圖像。這種能力使其天然勝任兩類極具挑戰性的新任務：

1.視覺敘事（Visual Narrative）：Emu3.5 能生成一系列圖文并茂的卡片，起點處從牛頓與索尼克在森林相遇、提出一場關于速度與引力的挑戰開始，到兩個交流和思考，再到最后在月光下共同仰望星空，整個過程邏輯連貫，畫面風格統一。

2.視覺指導（Visual Guidance）：模型可以生成分步的、帶有視覺示例的教程。例如，當被問及 “如何畫圖中的貓？”，Emu3.5 會生成幾個步驟，每個步驟都配有一張清晰的圖片，直觀地展示從輪廓到最終完成貓圖片的全過程。

這種能力標志著多模態模型從 “看圖說話” 或 “按需作畫” 的單一任務執行者，向著能夠進行連續、多步、跨模態創造的 “世界學習器” 邁出了關鍵一步。

十萬億多模態 Tokens 的世界基座模型訓練

悟界?Emu3.5 之所以能具備如此強大的原生多模態能力，其背后是一套極其龐大且精密的訓練流程。與以往模型主要依賴靜態的 “圖像 - 文本對” 不同，Emu3.5 的訓練數據主體，是包含超過 10 萬億 Tokens 的視覺 - 語言交錯數據，主要來源于互聯網視頻及其對應的語音轉錄文本，視頻時長總計約 790 年。

為什么視頻數據如此重要？因為靜態圖文對只能教會模型 “這是什么”，而連續的視頻幀和同步的解說，則能教會模型現實世界的物理動態、時空連續性和因果等規律。

整個流程分為四個核心階段：

1.大規模預訓練

這是奠定模型基礎的階段。Emu3.5 在超過 10 萬億 Tokens 的數據上，采用統一的 “下一狀態預測”（Next-State Predicttion）目標進行端到端訓練。這一階段分為兩步，第一步在 10 萬億 Tokens 上進行大規模基礎學習，第二步則在 3 萬億更高質量、更高分辨率和更豐富標注的數據上進行能力增強。

值得注意的是，模型在訓練過程中，驗證集上多個分布外（Out-of-Distribution）任務的損失持續下降，這表明模型涌現出了強大的泛化能力，而不僅僅是記憶訓練數據。

曲線表明 Emu3.5 實現了平滑且穩定的優化過程，并在多組驗證集上保持了一致的泛化能力

2.監督微調

在預訓練之后，模型在一個包含 1500 億樣本的高質量數據集上進行微調。這些數據覆蓋了從通用圖文生成、視覺問答，到前文提到的視覺敘事、視覺指導、世界探索和具身操作等多種復雜任務。SFT 階段的目標是建立一個統一的多模態交互接口，讓模型學會如何 “聽懂” 并完成各種具體指令，并促進不同任務之間的知識遷移。

3.大規模多模態強化學習

為了進一步提升多模態推理和生成質量，Emu3.5 首次在多模態領域進行大規模強化學習。團隊構建了一個復雜的多維度獎勵系統，能夠同時評估生成內容的美學質量、圖文對齊度、敘事連貫性、文本渲染準確度等多個指標。

通過在統一的獎勵空間中進行優化，模型學會在多個目標之間取得平衡，避免了 “獎勵欺騙”（Reward Hacking）現象，實現了跨任務的持續改進。

4.高效自回歸推理加速

為了解決自回歸模型在生成速度方面的挑戰，Emu3.5 團隊提出了一種叫做 “離散擴散自適應”（Discrete Diffusion Adaptation，DiDA）的方法。在不犧牲生成質量的前提下，Emu3.5 的單圖生成速度提升了約 20 倍。這意味著，Emu3.5 在保持自回歸模型強大可控性的同時，獲得了接近主流擴散模型的推理效率，成功彌合了兩種技術路線之間的鴻溝。

DiDA 的核心思想借鑒了擴散模型，但將其應用于離散的 Token 空間。它將自回歸模型的單向、順序預測，轉化為一種并行的、雙向的去噪過程。

從視覺敘事到世界探索：Emu3.5 的驚人能力

得益于其原生多模態架構、海量視頻數據訓練和 DiDA 加速，Emu3.5 在一系列任務中展現了 SOTA 或極具競爭力的表現。

通用圖像編輯與生成：在需要精確控制和多模態指令遵循的圖像編輯任務上，Emu3.5 表現出色，能夠實現開放世界的編輯和時空操作。在文字渲染方面，其準確性和自然度超越了包括 Gemini-2.5-Flash-Image（Nano Banana）在內的領先模型。

世界建模與探索：項目主頁中展示的 “世界探索” 和 “具身操作” 能力，使其與谷歌的 Genie 等前沿世界模型處于同一水平。Emu3.5 能夠根據指令，生成在虛擬環境中連續移動的視覺序列，并保持場景的幾何、語義和外觀一致性。

具身操作任務：它能將一個復雜的、長期的機器人操作任務（如倒水、折疊衣物）分解為一系列帶有語言指令和關鍵幀圖像的子任務，為訓練更通用的具身智能體提供了基礎。

這些能力的涌現，驗證了 Emu3.5 技術報告的核心觀點：通過在海量視頻數據上進行大規模訓練，模型能夠內化現實世界的運行規律，從而進行更深層次的模擬和推理。

無限生成，賦能具身智能的新引擎

Emu3.5 的突破，也為具身智能的發展補全了一塊關鍵的拼圖。

一直以來，具身智能領域都苦于缺乏高質量的數據，Emu3.5 可以作為一個無限數據生成器：它不僅能夠生成豐富多樣的虛擬環境和任務，大幅拓展 AI 學習和測試的空間，還能生成從高層目標到具體操作的分步規劃數據，幫助具身智能系統理解和實踐復雜任務的全過程。

智源研究院在很早就預判大模型正從數字世界加速邁入物理世界。“悟界” 系列模型，正是這一預判的集中體現。

Emu3.5 通過 “下一狀態預測” 和原生多模態融合，自然涌現出對時空、物理規律、因果等世界動態的內在理解，這正是機器人進行自主導航、精細操作、復雜決策等任務的基礎。

通往下一代多模態智能

智源悟界?Emu3.5 展示出了作為 “世界模型的基礎模型” 的巨大潛力。

通過原生多模態架構、以視頻為主的訓練數據和創新的 DiDA 加速技術，也向我們展示了如何構建一個更強大、更高效、更接近人類自然學習方式的世界模型。

當然，Emu3.5 也存在局限。技術報告中表示，其視覺分詞器（Tokenizer）的壓縮率仍有提升空間，DiDA 的加速潛力也未完全挖掘。同時，對于視覺敘事、世界探索等新能力的評估，也需要建立更系統化的基準。

它的開源，無疑將為全球 AI 研究社區提供一個強大的新基座。感興趣的讀者可以填寫報名表，申請獲取 Emu3.5 的內測資格。

報名鏈接：https://jwolpxeehx.feishu.cn/share/base/form/shrcn0dzwo2ZkN2Q0dveDBSfR3b

文中視頻鏈接：https://mp.weixin.qq.com/s/wXNDkNzKDG3rx9qZ9GkqgQ

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.