允中 發自 凹非寺
量子位 | 公眾號 QbitAI
最新最強的開源原生多模態世界模型——
北京智源人工智能研究院(BAAI)的悟界·Emu3.5來炸場了。
圖、文、視頻任務一網打盡,不僅能畫圖改圖,還能生成圖文教程,視頻任務更是增加了物理真實性。
先感受一下它的高精度操作:一句話消除手寫痕跡。
![]()
第一視角漫游動態3D世界:

要知道,現在AI迭代的速度,正在刷新所有人的認知。
尤其是在文生視頻這條賽道上,幾乎每個月都有新技術出來“搞事情”。
肉眼可見,AI視頻一個比一個真,一個比一個長。
but,先別急著鼓掌——
真正的賽點,早已不是“像不像”,而是“懂不懂”。
它知道桌子上的蘋果被拿走后,那里應該變空嗎?它明白你轉身之后,背后的場景依然存在嗎?如果答案是否定的,那再逼真的視頻,也不過是“高級的GIF”。
現在,致力于攻克這一終極難題的玩家,終于帶著悟界·Emu3.5來了。
從官方放出的demo來看,Emu3.5生成的作品展現出極強的連貫性、邏輯性,尤其讓AI模擬動態物理世界的能力又雙叒增強了。
它能讓你以第一人稱視角進入它所構建的虛擬世界。你的每一次移動、每一次轉身,它都能動態構建出你下一步應該看到的場景,全程保持空間一致性。
除了上面展示的探索3D游戲世界,還能第一視角參觀陽光下的客廳:

在火星上開卡丁車也很絲滑:

由于掌握了世界運行的內在規律,它不僅能像專業設計師一樣,進行高精度、可控的圖像編輯:
![]()
還能像拍電影一樣,生成圖文并茂的視覺故事:
![]()
從測評成績來看,悟界·Emu3.5的表現也極其亮眼——在多項權威基準上,性能媲美甚至超越了Gemini-2.5-Flash-Image,沒錯,就是那個Nano Banana,在文本渲染和多模態交錯生成任務上優勢尤其顯著。
![]()
Emu3.5的命名,就揭示了它的定位:世界模型基座
顧名思義,它要做的是世界模型的基礎模型,這等于是在AI領域開辟了一條全新的賽道。
那么,這樣一個被寄予厚望的模型究竟有多強?來看更多案例。
像智能體一樣理解長時序
核心能力:世界探索與具身操作
這是Emu3.5最核心、最能體現其“世界模型基座”本質的能力。它能像一個智能體(Agent)一樣,理解長時序、空間一致的序列,模擬在虛擬世界中的探索和操作。
比如下面這個“整理桌面”的任務,就是通過以下指令一步步實現的:
- 先把桌上所有東西清空。
- 把所有線纜解開并分類。
- 用扎帶把線纜捆好。
- 用理線槽把線纜隱藏在桌下。
- 最后把桌面物品擺放整齊。
![]()
進階能力:視覺指導與復雜圖像編輯
正因為掌握了動態世界演變規律,Emu3.5尤為擅長提供具有連貫性和指導意義的視覺內容。
當給了Emu3.5一張狐貍的草圖,并給出一系列指令“把它變成3D模型、3D打印出來、再上色”后,它直接一步步生成了從草圖到最終手辦形態的完整視覺流程。整個過程中,狐貍的核心特征和神態都得到了完美保留,扛住了長時程創作的挑戰。

這種能力讓它還能生成分步教學指南,手把手教你做菜、畫畫、種菜:
![]()
同時,它也支持多圖、多輪指令的復雜圖像編輯,主體一致性、風格保持能力達到業界頂尖水平。
敲黑板,由于Emu3.5本身就在海量的互聯網視頻上進行預訓練,所以它天生就具備理解時空連續性的能力,能夠生成長時序、邏輯一致的序列,而不會出現風格漂移或事實錯亂。
為了構建Emu3.5,智源這次在技術方面也是進行了一系列創新和突破。
背后技術原理
Emu3.5參數量僅34B,整個模型以標準的Decoder-only Transformer為框架,單一模型能夠同時完成視覺敘事、視覺引導、圖像編輯、世界探索、具身操作等多種任務。
它將所有任務都統一為下一State預測(Next-State Prediction)任務,無論是文本還是圖像,都被一個強大的多模態分詞器(Tokenizer)轉換成離散的Token序列。
- 海量視頻數據預訓練
- 模型在超過10萬億Token的多模態數據上進行訓練,其中主力是來自互聯網視頻的連續幀和轉錄文本。這使得模型從一開始就沉浸式學習時空連續性和因果關系。
- 強大的分詞器
- 視覺分詞器(Tokenizer)基于IBQ框架,擁有13萬的視覺詞匯表,并集成了擴散解碼器,能實現高達2K分辨率的高保真圖像重建。
- 多階段對齊
- 在預訓練之后,模型經過了大規模的有監督微調(SFT)和大規模多模態強化學習(RL),使用一個包含通用指標(如美學、圖文對齊)和任務特定指標(如故事連貫性、文本渲染準確率)的復雜獎勵系統進行優化。
- 推理加速黑科技
- 為了解決自回歸模型生成圖像慢的問題,團隊提出了離散擴散適配(DiDA)技術,它能將逐個Token的生成方式轉變為并行的雙向預測,在不犧牲性能的前提下,使每張圖像的推理速度提升近20倍。
One More Thing
這么強的模型,智源選擇——開源
![]()
全球的開發者、研究者,不用再從零開始,就能直接上手一個懂物理、有邏輯的世界模型。
從生成更逼真的視頻,到構建更聰明的智能體,再到賦能千行百業的實際應用……想象空間拉滿了。
對了,如果想要體驗科研內測版,可戳下方鏈接申請~
體驗鏈接:https://jwolpxeehx.feishu.cn/share/base/form/shrcn0dzwo2ZkN2Q0dveDBSfR3b
項目主頁:https://zh.emu.world/pages/web/landingPage
技術報告:https://zh.emu.world/Emu35_tech_report.pdf
— 完 —
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.