網易首頁 > 網易號 > 正文申請入駐

登上NeurIPS，Genesis開創無需OCC引導的多模態生成新范式

2025-09-28 16:51:08　來源: 機器之心Pro

北京舉報

分享至

由華中科技大學與小米汽車提出了業內首個無需 OCC 引導的多模態的圖像 - 點云聯合生成框架Genesis。該算法只需基于場景描述和布局（包括車道線和 3D 框），就可以生成逼真的圖像和點云視頻。

論文題目：Genesis: Multimodal Driving Scene Generation with Spatio-Temporal and Cross-Modal Consistency
論文鏈接：https://arxiv.org/abs/2506.07497
Github 鏈接：xiaomi-research/genesis

Genesis 采用兩階段架構：第一階段基于透視圖投影的布局和場景描述等條件，利用基于 DiT 的擴散模型學習 3D 變分自編碼器編碼的環視圖特征；第二階段將第一階段多視角視頻序列轉到鳥瞰圖的特征空間，并結合場景描述和布局等條件，學習 2D 自編碼器編碼的點云特征。

為了以結構化語義引導生成過程，本文引入了 DataCrafter (一個基于 VLM 的數據標注模塊)，可提供場景級與實例級的信息描述。在 nuScenes 基準數據集上的大量實驗表明，Genesis 在視頻與激光雷達指標上均達到了當前 SOTA 水平。

本文的主要貢獻總結如下：

統一的多模態生成架構。Genesis 采用統一的 pipeline，視頻和 LiDAR 分支都在共享相同的條件輸入，包括場景描述和布局等，這確保了生成的多模態數據的一致性。為進一步保證點云和圖像背景的信息一致性，我們將 RGB 透視圖轉到鳥瞰圖視角下的特征下，并把該特征作為條件輸入到基于點云擴散模型中，從而加強兩種模態的一致性，該過程無需依賴 occupancy 或體素等中間體。
通過 DataCrafter 進行結構化語義信息提取。為了提高語義可控性，本文引入了 DataCrafter，這是一個基于視覺語言模型構建的 caption 數據處理模塊。它提取多視圖、場景級和實例級描述，這些描述融合到密集的語言引導式先驗中。這些 caption 數據為視頻和 LiDAR 生成器提供了詳細的語義指導，從而產生不僅逼真而且可解釋和可控的輸出。

引言

在自動駕駛技術向高階邁進的進程中，構建多樣化、高擬真度的駕駛場景數據集，已成為不可或缺的關鍵環節。合成數據因為其可編輯，易泛化的特點得到了廣泛的關注?，F有研究雖在視頻生成、LiDAR 序列合成領域取得顯著進展，但如何實現視覺與幾何模態間的深度協同與一致性表達，仍屬亟待攻克的前沿課題。

如圖 1，當前主流的駕駛場景生成方案，多聚焦于 RGB 視頻或 LiDAR 點云的單模態數據生成。這些方法雖極大推動了場景生成技術的發展，卻未能充分挖掘多模態融合的協同優勢。在處理 RGB 視頻與其他傳感器數據時，模態間的對齊精度不足，導致生成結果難以滿足實際應用需求。許多方法采用基于 BEV 地圖或 3D 框的 “布局 - 數據” 單步生成模式，這種依賴粗略空間先驗的架構，在捕捉復雜交通動態與精細語義細節時存在天然缺陷。

盡管 UniScene 等研究嘗試引入占用網格實現多模態生成，但實際自動駕駛場景中 OCC 標簽的獲取是非常昂貴的，這嚴重限制了生成模型在工業界的應用。另外，現有多模態生成方案多依賴粗略標簽或通用標題模型提供語義標簽，未能有效利用現代視覺語言模型（VLM）的細粒度語義解析能力。這種語義標簽的缺失，直接影響生成場景的真實性、可控性，以及時空邏輯的連貫性。

具體工作

DataCrafter 模塊

本文提出 DataCrafter, 一個專為多視角自動駕駛視頻設計的 Caption 數據生成模塊，旨在實現以下兩項核心功能：

(1) 訓練階段數據篩選：借助預訓練視覺語言模型的圖像理解能力，對原始訓練片段進行評估，僅篩選高質量片段用于訓練。(2) 結構化語義提?。豪靡曈X語言模型對多視角視頻片段提取細粒度語義信息，為多模態生成任務提供豐富的結構化語義條件。

評分體系涵蓋三類關鍵視覺屬性：(1) 圖像清晰度：如模糊、畸變、臟污等；(2) 結構合理性：如遮擋程度、結構混亂、場景完整性等；(3) 美學特性：如逆光、過暗過亮、曝光異常、色彩偏差等。

視頻生成模型

如圖 2 中 camera_branch，Genesis 的視頻生成模塊以 DiT 為骨干，引入 3D-VAE 編碼與結構化語義先驗，構建出具備時空一致性的生成架構。Camera 分支將場景布局信息與語言描述通過注意力機制深度耦合，使生成的視頻不僅具備視覺真實感，更能遵循語義邏輯。

我們發現，目前自動駕駛場景視頻生成的疼點在于行人難以清晰地生成，為此，我們創新性地利用 YOLOv8x-Pose 檢測行人姿態并投影到各視角，以此增強動態場景的語義表達。

具體實現上，我們首先構建包含車道段和 3D 邊界框的結構化場景布局，將其投影到各視角 2D 圖像平面形成語義控制圖，再通過 Control-DiT 模塊的交叉注意力機制在每個去噪時間步融入這些結構化先驗，實現對生成過程的引導。

在隱空間編碼方面，借助 3D VAE 將多幀 BEV 圖壓縮為隱空間表示，解碼器從去噪詞元中重建 BEV 語義。訓練目標函數為：

最后，模塊集成的語義對齊控制 Transformer 通過控制注意力將語義特征注入擴散塊早期階段，并結合空間自注意力、跨視角注意力和時間注意力機制，全面保障多視角視頻生成的時空連貫性與語義保真度。

激光雷達生成模型

如圖 2 中 lidar_branch，激光雷達生成模塊致力于生成幾何精確且時空連貫的點云序列，通過點云自動編碼器與時空擴散模塊的協同設計，結合跨模態語義條件實現多傳感器數據的一致性生成。

如圖 4，首先，點云自動編碼器將稀疏點云體素化為 BEV 網格，利用 Swin Transformer 骨干網絡壓縮為隱空間特征，再通過 Swin 解碼器與 NeRF 渲染模塊重建點云，過程中采用空間跳躍算法減少空網格誤差，并通過深度 L1 損失、占用損失和表面正則化損失優化訓練，同時引入后處理過濾噪聲點。

時空擴散模塊以自動編碼器的隱空間特征為基礎，采用雙 DiT 網絡結合 ControlNet 架構，集成場景描述、道路圖等語義條件，以及 3D 邊界框幾何條件；為保證跨模態一致，通過 LSS 算法將視頻分支的 RGB 圖像轉為 BEV 特征，與道路圖特征拼接后輸入 ControlNet。擴散過程中，隱空間詞元通過交叉注意力融合語義與幾何嵌入，交叉注意力操作的公式為：

實驗結果

視頻生成結果

在無首幀條件設定下，本文的方法實現了 83.10 的多幀 FVD 和 14.90 的多幀 FID，優于 DriveDreamer-2 等先前的工作。在有首幀條件設定下，本文的方法進一步提升至 16.95 的 FVD 和 4.24 的 FID，與 MiLA 相比展現出具有競爭力的結果，同時保持了時間一致性和結構保真度。在有噪聲隱空間設定下，在 6019 個樣本上實現了 67.87 的 FVD 和 6.45 的 FID，超過了 UniScene 報告的先前最佳結果。

LiDAR 生成結果

表 2 展現了先前最先進的方法與本文提出的 Genesis 框架在激光雷達序列生成性能方面的定量比較。評估標準遵循 HERMES 的設定進行，在水平面 [?51.2, 51.2] 米以及高度 [?3, 5] 米的空間范圍內，使用 Chamfer distance 作為主要指標。在短期和長期預測方面，Genesis 始終優于現有方法。在預測時長為 1 秒時，它的 Chamfer distance 達到 0.611，比之前的最佳值（HERMES 的 0.78）高出 21%。在預測時長為 3 秒時，優勢擴大到相對減少 45%（從 1.17 降至 0.633）。

下游任務實驗

本文的方法在多個下游感知任務上評估了生成數據的效用。如表 5 所示，本文的方法在 BEVFormer 3D 目標檢測中取得了最佳的平均交并比（38.01）和平均精度均值（27.90）。如表 6 所示，本文評估了生成數據在 BEVFusion 3D 目標檢測框架上的有效性。在所有設置中，本文的方法都取得了一致的改進，mAP 從 66.87 提高到 67.78，NDS 從 69.65 提高到 71.13。攝像頭和激光雷達模態的聯合生成實現了的最高增益（+0.91 mAP / +1.48 NDS），證明了多模態生成的互補優勢。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.