![]()
廈門大學和騰訊合作的最新論文《FlashWorld: High-quality 3D Scene Generation within Seconds》獲得了海內外的廣泛關注,在當日 Huggingface Daily Paper 榜單位列第一,并在 X 上獲得 AK、Midjourney 創始人、SuperSplat 創始人等 AI 大佬點贊轉發。
![]()
FlashWorld 不僅將三維場景的生成在單卡上做到了 5~10 秒(相比之前方法提速百倍),更統一支持了單張圖片或文本輸入,生成的場景可以在網頁用戶端實時渲染,同時質量還勝過其他同類閉源模型。
![]()
- 主頁 :https://github.com/imlixinyang/FlashWorld-Project-Page
- Github:https://github.com/imlixinyang/FlashWorld
- Huggingface Demo:https://huggingface.co/spaces/imlixinyang/FlashWorld-Demo-Spark
- 論文:https://arxiv.org/pdf/2510.13678
目前,作者們還提供了 Huggingface 上的免費 Demo 可以試玩。我們迫不及待地進行了嘗試,并且在同一個輸入下與 WorldLabs 的 Marble 和前兩天發布的 RTFM 模型比較了一下:



從上至下:FlashWorld,Marble,RTFM
可以看到 FlashWorld 在預設軌跡下可以產生非常穩定完整高質量的渲染結果,生成速度比 Marble 的快速模式快 5 倍,而且完全通過前端渲染,不需要像 RTFM 一樣需要等待連接后端 GPU 才能使用。
這是怎么做到的呢?
FlashWorld 動機
雖然現在視頻模型成為了世界模型的主流,但其負載大的特點難以讓每個人都能在自己的設備上進行體驗。因此,FlashWorld 選擇了基于 3DGS 為場景輸出形式的技術路線,這也是為什么 FlashWorld 生成的結果可以在本地網頁端實時渲染。
在傳統生成 3DGS 場景的方法中,大約分為了兩類:
一種是以多視角為中心的方案,代表方法為 CAT3D,Wonderland 等。它們使用了先通過擴散模型生成多視角圖像或視頻,再通過三維重建得到 3DGS 的兩步框架。然而,因為使用的擴散模型往往會生成視角不一致的結果,這類方案容易產生雜亂的紋理細節。
另一種則為以三維為中心的方案,代表方法為 Director3D,DiffusionGS 等。它們把 3DGS 作為中介,直接用于多視角的去噪流程中。但因為場景數據相機標注往往不夠準確以及模型知識不夠強的問題,這類方案容易產生模糊的渲染效果。
FlashWorld 的核心,簡而言之,就是用把 以多視角為中心的教師模型 通過蒸餾損失提升 以三維為中心的學生模型 的視覺質量,這樣既保證了理論上的多視角一致性,又不斷促使模型接近真實場景的圖像質量,順帶地,還極大減少了去噪步數



視頻為單圖到三維場景生成效果,從上到下依次為同一個網絡架構在 MV 模式、3D 模式,以及 FlashWorld 提出的跨模式蒸餾結果。
FlashWorld 方法
FlashWorld 包含了兩個訓練流程:
1. 雙模式預訓練:基于視頻擴散先驗,訓練一個同時支持 以多視角為中心(MV)/ 以三維為中心(3D) 雙模式輸出的多視圖擴散模型。
2. 跨模式后訓練:以 MV 模式為教師、3D 模式為學生,進行分布匹配蒸餾,兼顧高保真與 3D 一致。
![]()
FlashWorld 還利用了分布匹配蒸餾不需要 Ground Truth 的特性,將隨機的圖像、文本和軌跡組合成分布外的輸入進行訓練,進一步提升學生模型對各種場景、風格、軌跡泛化能力
實驗效果
FlashWorld 在各種任務上進行了充分全面的實驗和對比。包括:
- 圖生三維場景(最上一行為 FlashWorld 結果):
![]()
FlashWorld 竟然成功地生成出了整齊的柵欄(左上),這在以往的工作中幾乎是不可能的。
- 文生三維場景(最上一行為 FlashWorld 結果):
![]()
FlashWorld 對于毛發這些細粒度的細節也有著非常好的生成能力,這在密集視角的重建中可能都是非常困難的問題,而 FlashWorld 竟然只需要輸入文本。
- Feifei Li 團隊 WorldScore Benchmark(最左列為 FlashWorld 結果):
![]()
可以看到,FlashWorld 對于場景風格、語義和三維性也保持得非常好。
- 文生三維場景定性指標:
![]()
FlashWorld 在該 Benchmark 下以最快的速度領先與其他方法。
- WorldScore 定性指標
![]()
FlashWorld 在該 Benchmark 下以最快的速度下獲得了最高的平均分。
FlashWorld 還可以在只需要 RGB 監督的情況下自然學到深度信息
![]()
卡通風格的場景也手到擒來(文內所有圖均為 3DGS 渲染結果):

快速體驗
FlashWorld 還開源了基于 SparkJS 的交互式 Demo,并可以在 Huggingface Spaces 上進行免費體驗。
體驗地址:https://huggingface.co/spaces/imlixinyang/FlashWorld-Demo-Spark
![]()
https://mp.weixin.qq.com/s/feqk9qlWQWXqxJKcHaDOTA
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.