<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      登上NeurIPS,Genesis開創無需OCC引導的多模態生成新范式

      0
      分享至



      由華中科技大學與小米汽車提出了業內首個無需 OCC 引導的多模態的圖像 - 點云聯合生成框架Genesis。該算法只需基于場景描述和布局(包括車道線和 3D 框),就可以生成逼真的圖像和點云視頻。



      • 論文題目:Genesis: Multimodal Driving Scene Generation with Spatio-Temporal and Cross-Modal Consistency
      • 論文鏈接:https://arxiv.org/abs/2506.07497
      • Github 鏈接:xiaomi-research/genesis

      Genesis 采用兩階段架構:第一階段基于透視圖投影的布局和場景描述等條件,利用基于 DiT 的擴散模型學習 3D 變分自編碼器編碼的環視圖特征; 第二階段將第一階段多視角視頻序列轉到鳥瞰圖的特征空間,并結合場景描述和布局等條件,學習 2D 自編碼器編碼的點云特征。

      為了以結構化語義引導生成過程,本文引入了 DataCrafter (一個基于 VLM 的數據標注模塊),可提供場景級與實例級的信息描述。在 nuScenes 基準數據集上的大量實驗表明,Genesis 在視頻與激光雷達指標上均達到了當前 SOTA 水平。



      本文的主要貢獻總結如下:

      • 統一的多模態生成架構。Genesis 采用統一的 pipeline,視頻和 LiDAR 分支都在共享相同的條件輸入,包括場景描述和布局等,這確保了生成的多模態數據的一致性。為進一步保證點云和圖像背景的信息一致性,我們將 RGB 透視圖轉到鳥瞰圖視角下的特征下,并把該特征作為條件輸入到基于點云擴散模型中,從而加強兩種模態的一致性,該過程無需依賴 occupancy 或體素等中間體。
      • 通過 DataCrafter 進行結構化語義信息提取。為了提高語義可控性,本文引入了 DataCrafter,這是一個基于視覺語言模型構建的 caption 數據處理模塊。它提取多視圖、場景級和實例級描述,這些描述融合到密集的語言引導式先驗中。這些 caption 數據為視頻和 LiDAR 生成器提供了詳細的語義指導,從而產生不僅逼真而且可解釋和可控的輸出。

      引言

      在自動駕駛技術向高階邁進的進程中,構建多樣化、高擬真度的駕駛場景數據集,已成為不可或缺的關鍵環節。合成數據因為其可編輯,易泛化的特點得到了廣泛的關注?,F有研究雖在視頻生成、LiDAR 序列合成領域取得顯著進展,但如何實現視覺與幾何模態間的深度協同與一致性表達,仍屬亟待攻克的前沿課題。

      如圖 1,當前主流的駕駛場景生成方案,多聚焦于 RGB 視頻或 LiDAR 點云的單模態數據生成。這些方法雖極大推動了場景生成技術的發展,卻未能充分挖掘多模態融合的協同優勢。在處理 RGB 視頻與其他傳感器數據時,模態間的對齊精度不足,導致生成結果難以滿足實際應用需求。許多方法采用基于 BEV 地圖或 3D 框的 “布局 - 數據” 單步生成模式,這種依賴粗略空間先驗的架構,在捕捉復雜交通動態與精細語義細節時存在天然缺陷。

      盡管 UniScene 等研究嘗試引入占用網格實現多模態生成,但實際自動駕駛場景中 OCC 標簽的獲取是非常昂貴的,這嚴重限制了生成模型在工業界的應用。另外,現有多模態生成方案多依賴粗略標簽或通用標題模型提供語義標簽,未能有效利用現代視覺語言模型(VLM)的細粒度語義解析能力。這種語義標簽的缺失,直接影響生成場景的真實性、可控性,以及時空邏輯的連貫性。



      具體工作



      DataCrafter 模塊



      本文提出 DataCrafter, 一個專為多視角自動駕駛視頻設計的 Caption 數據生成模塊,旨在實現以下兩項核心功能:

      (1) 訓練階段數據篩選:借助預訓練視覺語言模型的圖像理解能力,對原始訓練片段進行評估,僅篩選高質量片段用于訓練。(2) 結構化語義提?。豪靡曈X語言模型對多視角視頻片段提取細粒度語義信息,為多模態生成任務提供豐富的結構化語義條件。







      評分體系涵蓋三類關鍵視覺屬性:(1) 圖像清晰度:如模糊、畸變、臟污等;(2) 結構合理性:如遮擋程度、結構混亂、場景完整性等;(3) 美學特性:如逆光、過暗過亮、曝光異常、色彩偏差等。







      視頻生成模型

      如圖 2 中 camera_branch,Genesis 的視頻生成模塊以 DiT 為骨干,引入 3D-VAE 編碼與結構化語義先驗,構建出具備時空一致性的生成架構。Camera 分支將場景布局信息與語言描述通過注意力機制深度耦合,使生成的視頻不僅具備視覺真實感,更能遵循語義邏輯。

      我們發現,目前自動駕駛場景視頻生成的疼點在于行人難以清晰地生成,為此,我們創新性地利用 YOLOv8x-Pose 檢測行人姿態并投影到各視角,以此增強動態場景的語義表達。

      具體實現上,我們首先構建包含車道段和 3D 邊界框的結構化場景布局,將其投影到各視角 2D 圖像平面形成語義控制圖,再通過 Control-DiT 模塊的交叉注意力機制在每個去噪時間步融入這些結構化先驗,實現對生成過程的引導。

      在隱空間編碼方面,借助 3D VAE 將多幀 BEV 圖壓縮為隱空間表示,解碼器從去噪詞元中重建 BEV 語義。訓練目標函數為:







      最后,模塊集成的語義對齊控制 Transformer 通過控制注意力將語義特征注入擴散塊早期階段,并結合空間自注意力、跨視角注意力和時間注意力機制,全面保障多視角視頻生成的時空連貫性與語義保真度。



      激光雷達生成模型

      如圖 2 中 lidar_branch,激光雷達生成模塊致力于生成幾何精確且時空連貫的點云序列,通過點云自動編碼器與時空擴散模塊的協同設計,結合跨模態語義條件實現多傳感器數據的一致性生成。

      如圖 4,首先,點云自動編碼器將稀疏點云體素化為 BEV 網格,利用 Swin Transformer 骨干網絡壓縮為隱空間特征,再通過 Swin 解碼器與 NeRF 渲染模塊重建點云,過程中采用空間跳躍算法減少空網格誤差,并通過深度 L1 損失、占用損失和表面正則化損失優化訓練,同時引入后處理過濾噪聲點。

      時空擴散模塊以自動編碼器的隱空間特征為基礎,采用雙 DiT 網絡結合 ControlNet 架構,集成場景描述、道路圖等語義條件,以及 3D 邊界框幾何條件;為保證跨模態一致,通過 LSS 算法將視頻分支的 RGB 圖像轉為 BEV 特征,與道路圖特征拼接后輸入 ControlNet。擴散過程中,隱空間詞元通過交叉注意力融合語義與幾何嵌入,交叉注意力操作的公式為:





      實驗結果

      視頻生成結果







      在無首幀條件設定下,本文的方法實現了 83.10 的多幀 FVD 和 14.90 的多幀 FID,優于 DriveDreamer-2 等先前的工作。在有首幀條件設定下,本文的方法進一步提升至 16.95 的 FVD 和 4.24 的 FID,與 MiLA 相比展現出具有競爭力的結果,同時保持了時間一致性和結構保真度。在有噪聲隱空間設定下,在 6019 個樣本上實現了 67.87 的 FVD 和 6.45 的 FID,超過了 UniScene 報告的先前最佳結果。

      LiDAR 生成結果



      表 2 展現了先前最先進的方法與本文提出的 Genesis 框架在激光雷達序列生成性能方面的定量比較。評估標準遵循 HERMES 的設定進行,在水平面 [?51.2, 51.2] 米以及高度 [?3, 5] 米的空間范圍內,使用 Chamfer distance 作為主要指標。在短期和長期預測方面,Genesis 始終優于現有方法。在預測時長為 1 秒時,它的 Chamfer distance 達到 0.611,比之前的最佳值(HERMES 的 0.78)高出 21%。在預測時長為 3 秒時,優勢擴大到相對減少 45%(從 1.17 降至 0.633)。

      下游任務實驗



      本文的方法在多個下游感知任務上評估了生成數據的效用。如表 5 所示,本文的方法在 BEVFormer 3D 目標檢測中取得了最佳的平均交并比(38.01)和平均精度均值(27.90)。如表 6 所示,本文評估了生成數據在 BEVFusion 3D 目標檢測框架上的有效性。在所有設置中,本文的方法都取得了一致的改進,mAP 從 66.87 提高到 67.78,NDS 從 69.65 提高到 71.13。攝像頭和激光雷達模態的聯合生成實現了的最高增益(+0.91 mAP / +1.48 NDS),證明了多模態生成的互補優勢。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      沖以色列去的?美國考慮賣給沙特48架F-35戰機

      沖以色列去的?美國考慮賣給沙特48架F-35戰機

      看看新聞Knews
      2025-11-05 16:20:08
      兩岸統一表態,臺灣入黨潮涌,869人加入國民黨,洪秀柱促統

      兩岸統一表態,臺灣入黨潮涌,869人加入國民黨,洪秀柱促統

      阿晭評論哥
      2025-11-04 21:09:52
      2026年開始,走十年大運的三個星座,財旺人旺,人生迎來驚人轉折

      2026年開始,走十年大運的三個星座,財旺人旺,人生迎來驚人轉折

      小晴星座說
      2025-11-05 20:06:49
      “最美女嬰”出生就走網絡,皮膚白、大眼、高鼻,讓人羨慕不已

      “最美女嬰”出生就走網絡,皮膚白、大眼、高鼻,讓人羨慕不已

      小書蟲媽媽
      2025-10-24 10:02:18
      買淀粉腸的學生,搶鑰匙的校長,撒謊的通報

      買淀粉腸的學生,搶鑰匙的校長,撒謊的通報

      空瓶子
      2025-11-04 18:18:24
      人在渡劫時,一定要遵守的鐵律:不動不言

      人在渡劫時,一定要遵守的鐵律:不動不言

      金沛的國學筆記
      2025-10-07 20:21:58
      明明近幾場狀態一塌糊涂,結果快船還讓鋒線老將進入先發陣容?

      明明近幾場狀態一塌糊涂,結果快船還讓鋒線老將進入先發陣容?

      稻谷與小麥
      2025-11-05 23:54:17
      梅德韋杰夫本是普京接班人,為何如今卻被邊緣化了?起因是卡扎菲

      梅德韋杰夫本是普京接班人,為何如今卻被邊緣化了?起因是卡扎菲

      近史博覽
      2025-10-25 17:26:28
      隨著雷霆8連勝創紀錄,勇士贏太陽,西部最新排行:快船跌至第10

      隨著雷霆8連勝創紀錄,勇士贏太陽,西部最新排行:快船跌至第10

      球場沒跑道
      2025-11-05 14:38:11
      中俄簽署公告,俄方從7個角度支持中國統一,這才是真正的伙伴

      中俄簽署公告,俄方從7個角度支持中國統一,這才是真正的伙伴

      歷史求所知
      2025-11-04 21:11:47
      央媒評鄭智化道歉,言辭犀利三連問直戳心窩,輿論風向已變!

      央媒評鄭智化道歉,言辭犀利三連問直戳心窩,輿論風向已變!

      智凌縱橫
      2025-11-05 11:54:35
      于和偉曝余皚磊失眠嚴重,片場險心臟驟停,現被罵到抑郁不想拍戲

      于和偉曝余皚磊失眠嚴重,片場險心臟驟停,現被罵到抑郁不想拍戲

      仙味少女心
      2025-11-05 15:42:35
      太突然!央視宣布撤檔!

      太突然!央視宣布撤檔!

      臺州交通廣播
      2025-11-05 20:31:05
      絕了,才打半個月就受傷!錫安淪為笑柄,連續報銷,空拿2億薪資

      絕了,才打半個月就受傷!錫安淪為笑柄,連續報銷,空拿2億薪資

      阿泰希特
      2025-11-05 14:22:54
      特斯拉"毛坯防空洞"賣爆了,為什么中國人要買自己最討厭的車?

      特斯拉"毛坯防空洞"賣爆了,為什么中國人要買自己最討厭的車?

      水滴汽車App
      2025-11-05 18:57:01
      曝王珂再虧12億!劉濤凌晨發文崩潰:無力的時候該怎么辦?

      曝王珂再虧12億!劉濤凌晨發文崩潰:無力的時候該怎么辦?

      萌姐
      2025-11-04 20:41:54
      人民日報專訪,揭開32歲周深的真實處境,那英確實一個字都沒說錯

      人民日報專訪,揭開32歲周深的真實處境,那英確實一個字都沒說錯

      八斗小先生
      2025-11-01 08:46:54
      官宣!2026年1月物業改革:居委會全程監督,公共收益歸業主

      官宣!2026年1月物業改革:居委會全程監督,公共收益歸業主

      春序娛樂
      2025-11-04 21:31:03
      中國共產黨中央軍事委員會副主席張升民簡歷

      中國共產黨中央軍事委員會副主席張升民簡歷

      上觀新聞
      2025-10-23 18:17:07
      A股:剛剛,兩部門重磅宣布,政策暖意托底,周四將迎大級別變化

      A股:剛剛,兩部門重磅宣布,政策暖意托底,周四將迎大級別變化

      云鵬敘事
      2025-11-06 00:00:03
      2025-11-06 01:59:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11656文章數 142498關注度
      往期回顧 全部

      科技要聞

      大轉彎!特朗普再提名馬斯克盟友任NASA局長

      頭條要聞

      民進黨當局封殺淘寶拼多多 臺媒:不如多花力氣清空詐騙

      頭條要聞

      民進黨當局封殺淘寶拼多多 臺媒:不如多花力氣清空詐騙

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發心臟病去世

      財經要聞

      事關加快建設金融強國 中央金融辦發聲

      汽車要聞

      智己LS9入局"9系"混戰 全尺寸SUV市場迎來新變量

      態度原創

      藝術
      本地
      旅游
      健康
      親子

      藝術要聞

      一眼攝魂的魔術手:泰國畫師 Razaras 的作品唯美圣潔!自帶發光特效!

      本地新聞

      這屆干飯人,已經把博物館吃成了食堂

      旅游要聞

      立冬將至 秋韻未央

      超聲探頭會加重受傷情況嗎?

      親子要聞

      孩子夾腿觸摸自己不一定都是壞事,但這種情況除外!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 动漫AV纯肉无码AV电影网| 亚洲国产午夜精品福利| 一本加勒比hezyo无码人妻| 日本一区二区三区黄色网| 国产成人a∨激情视频厨房| 亚洲AV永久中文无码精品综合| 老司机午夜精品视频资源| 欧美精品高清在线观看| 国内精品视这里只有精品| 精品国产品香蕉在线| 色九月亚洲综合网| 亚洲国产成人精品女久久| 久久亚洲中文字幕不卡一二区| 在线观看精品视频网站| 国产又黄又硬又粗| 黄色A级国产免费大片视频| 国产普通话对白刺激| 国产成人剧情AV麻豆果冻| 亚洲av综合av一区| 精品视频一区二区福利午夜| 国产欧美精品一区aⅴ影院| 亚洲av中文乱码一区二| 人成午夜免费大片| 永年县| 3d动漫精品一区二区三区| 国产中文字幕日韩精品| 国产一区二区三区AV在线无码观看| 国产特色一区二区三区视频| 国产激情艳情在线看视频| 信阳市| 亚洲国产码专区在线观看| 精品人妻少妇一区二区三区| 午夜福利国产精品小视频| 亚洲av成人无码精品电影在线| 旬阳县| 免费观看全黄做爰大片| 北岛玲中文字幕人妻系列| 无码a∨高潮抽搐流白浆| 国产中文字幕精品在线| 日韩有码中文字幕av| 国产亚洲精品一区二区无|