網易首頁 > 網易號 > 正文申請入駐

基于3DGS場景理解和視覺語言預訓練，讓3D高斯「聽懂人話」的一躍

2025-09-08 13:26:10　來源: 機器之心Pro

河北舉報

分享至

開放詞匯識別與分類對于全面理解現實世界的 3D 場景至關重要。目前，所有現有方法在訓練或推理過程中都依賴于 2D 或文本模態。這凸顯出缺乏能夠單獨處理 3D 數據以進行端到端語義學習的模型，以及訓練此類模型所需的數據。與此同時，3DGS 已成為各種視覺任務中 3D 場景表達的重要標準之一。

然而，有效地將語義理解以可泛化的方式集成到 3DGS 中仍然是一個難題。為了突破這些瓶頸，我們引入了 SceneSplat，第一個在 3DGS 上原生運行的端到端大規模 3D 室內場景理解方法。此外，我們提出了一種自監督學習方案，可以從未標記場景中解鎖豐富的 3D 特征學習。為了支持所提出的方法，我們采集了首個針對室內場景的大規模 3DGS 數據集 SceneSplat-7K，包含 7916 個場景，這些場景源自七個現有數據集，例如 ScanNet 和 Matterport3D。生成 SceneSplat-7K 所需的計算資源相當于在 L4 GPU 上運行 150 天。我們在 SceneSplat-7K 上進行了開放詞匯和語義分割的測試，均達到了 state-of-the-art 的效果。

文章鏈接：https://arxiv.org/abs/2503.18052
項目主頁：https://unique1i.github.io/SceneSplat_webpage/
數據集：https://huggingface.co/datasets/GaussianWorld/scene_splat_7k

圖 1: SceneSplat-7K 從 7 個不同的公開數據集采集了了 7916 個完整 3DGS 場景，并且做了語義標注；基于這一高質量數據集，我們大規模訓練了 SceneSplat 模型，這是首個能夠在單次前向傳播中預測數百萬個 3D 高斯分布的開放詞匯語言特征的模型。

視頻：SceneSplat

SceneSplat 數據集

大規模 3DGS 重建

為支撐在 3D 高斯點（3DGS）上的原生語義學習，我們構建并發布 SceneSplat-7K。數據來源覆蓋 7 個權威室內數據集：ARKitScenes、Replica、ScanNet、ScanNet++（含 v2）、Hypersim、3RScan、Matterport3D，統一轉化為 3DGS 表示，形成跨真實與合成場景的多樣化數據集。

SceneSplat-7K 包含7,916 個處理后的 3DGS 場景、總計 112.7 億個高斯點，單場景均值約 142 萬；對應 472 萬張 RGB 訓練幀。整體重建質量達到 PSNR 29.64 dB、平均 Depth-L1 0.035 m，在保持高保真外觀的同時兼顧幾何準確性。該數據集的構建開銷等效 NVIDIA L4 150 個 GPU-days。具體信息如下表所示。

表 1：數據集數據。

開放詞匯語義標注

我們使用了一套穩定、快速的系統來標注 3DGS 的語義信息。首先用 SAMv2 做物體級分割、SigLIP2提取視覺 - 語言特征，再借助 Occam’s LGS 將多視角 2D 特征高效 “抬升” 到 3DGS 上，得到穩定的高斯 - 語言特征對，為后續預訓練提供監督；預訓練的編碼器僅依賴 3DGS 參數與鄰域信息，即可學習到豐富的語義表示，無需在推理時再做 2D 融合。

SceneSplat 預訓練

在得到大規模帶標注的 3DGS 數據集后，我們希望訓練一個高參數量的 Transformer 編碼器來預訓練 3DGS 數據。根據數據的不同特征，我們提供了兩個不同的訓練路線。在有語義標注的情況下，我們進行了視覺 - 語言預訓練，使得網絡可以直接輸出與 CLIP/SigLip 對齊的特征，便于進行開放詞匯測試；對于沒有語義標注的數據，我們直接根據原有 3DGS 參數進行自監督訓練，釋放無標注場景的學習潛力。

圖 2． SceneSplat 同時支持視覺 - 語言預訓練與自監督預訓練。

視覺 - 語言預訓練

我們采用分層 Transformer 編解碼器：以高斯為 token，結合 kNN 半徑構圖形成鄰域注意力；解碼回歸維度為 d 的語義向量。訓練目標由兩部分損失函數組成：

損失函數：對每個高斯的預測嵌入 z_i 與監督嵌入 z ?_i 同時施加余弦損失與 L2 損失，穩定對齊方向與尺度；

對比學習（后期啟用）：在訓練后段加入 InfoNCE，并對同類高斯進行類內聚合（prototype pooling）后再對比，強化類間可分性。在訓練后期加入可以顯著避免早起損失函數震蕩過高的問題。

推理與后處理。給定文本查詢 t 的向量 y_t，與每個高斯嵌入做余弦相似度匹配即可得到正確的 query；考慮測試點集與高斯中心不完全重合，使用 kNN 投票（默認 k 為幾十）在空間上聚合，得到正確的推理。

GaussianSSL：自監督訓練

實際上，絕大多數 3D 重建的場景沒有語義標注，借用 2D foundation model 來進行標注也十分昂貴。我們提出另一種自監督訓練方法來得到可泛化的 3DGS 表征。

1. Masked Gaussian Modeling（MGM）

對 3DGS 隨機高比例掩碼，僅向模型提供可見子集與拓撲鄰域信息；解碼器重建被掩的核心參數（如中心、尺度、旋轉、顏色、不透明度等）。不同量綱采用分量歸一化與多任務加權（L1/L2 結合），鼓勵網絡同時理解幾何與外觀，并學習到對噪聲與稀疏采樣魯棒的局部結構先驗。

2. Self-Distillation Learning（自蒸餾）

采用教師 - 學生框架與多種 3D 數據增廣（旋轉、尺度抖動、點擾動、隨機子采樣）。在全局表征與局部 token 兩級施加一致性損失（余弦 / 分布對齊），并配合輕量正則化（如避免坍塌的熵 / 編碼率約束），獲得對增廣不變的判別性特征。教師以動量更新，穩定訓練并提升大規模數據上的收斂性。

3. Language–Gaussian Alignment（可選）

當場景具備 VL 標簽時，引入輕量語言對齊作為輔助頭：先將高維 VLM 嵌入通過自編碼器 / 線性頭降維，再僅對 Mask 區域施加低維對齊損失，使 MGM 的結構重建與語義對齊協同而非相互干擾。該分支可按數據可得性按需啟用，確保無標注與弱標注數據都能納入統一訓練。

實驗結果

定量實驗

如表 2 所示，我們的方法在 ScanNet200、ScanNetpp 和 Matterport3D 的零樣本語義分割上面都達到了 SOTA 的效果。

表 2：零樣本 3D 語義分割

在無監督預訓練后，我們測試了 GaussianSSL 的語義分割效果，結果如表 3 所示，在 ScanNet 和 ScanNetpp 數據集中均達到了 SOTA 的效果。

表 3: 語義分割結果

定性實驗

在做可視化的時候，我們發現了很多很有趣的結果，如圖 3 所示，本身的 3D 語義標注會將相同的桌子打上不同的標簽，但是經過訓練后，我們的模型可以很干凈的分割出來完整的桌子。

圖 3. 在 ScanNetpp 上的零樣本預測可視化。

在圖 4 中，我們展示了模型零樣本 Query 的能力，一些類別，比如 Robot Arm 是在原數據集中不存在的，但是經過 SceneSplat 預訓練后，我們可以很好的識別 Out of Distribution 的物體。圖 5 中我們測試了物體屬性 query，證明了我們的模型也能很好的 model attribute。更多的實驗結果請參考我們原文。

圖 4. 文本 query 結果。

圖 5（左）：“Vacation” --> “Travel Guide”，（右）：“Art”-->“Painting”。

后期工作

我們繼續將 SceneSplat-7K 數據集拓展成了 SceneSplat-49K，并且在多個 dataset 上進行了系統的 3DGS 和語義結合的工作的 benchmarking，歡迎大家繼續關注 SceneSplat++ ：https://arxiv.org/abs/2506.08710。

主要作者簡介：

李躍，阿姆斯特丹大學博士二年級學生，分別于蘇黎世聯邦理工學院和上海交通大學獲得碩士和學士學位，主要研究方向為在線稠密重建和 3D 場景理解。

馬麒，蘇黎世聯邦理工INSAIT共同培養博士二年級學生，本科畢業于上海交通大學和碩士畢業于蘇黎世聯邦理工，主要研究方向是 3D 重建和理解方向，目前在 ICCV, CVPR, Neurips 等國際會議發表多篇論文。

楊潤一，INSAIT 博士生，導師為 Dr. Danda Paudel 和 Prof. Luc Van Gool，碩士畢業于帝國理工學院 MRes AIML，本科畢業于北京理工大學自動化專業。曾在索尼 Pixomondo Innovation Lab 擔任研究員。主要研究方向為三維重建、場景理解和生成。CICAI 2023 獲得 Best Paper Runner-up 獎項。

馬夢姣，INSAIT 計算機科學與人工智能研究所博士生，學士畢業于南京航空航天大學，主要研究興趣為三維場景理解。

任斌，比薩大學和特倫托大學聯合培養 “意大利國家 AI 博士” 項目博士生，INSAIT 和蘇黎世聯邦理工訪問學者，此前分別于北京大學和中南大學獲得碩士和學士學位。主要研究方向為表征學習，場景理解，以及多模態推理。

Luc Van Gool 教授是計算機視覺與人工智能領域的國際頂尖學者，現任 INSAIT 全職教授，曾任蘇黎世聯邦理工學院（ETH Zurich）和比利時魯汶大學（KU Leuven）教授，同時領導多個跨學科研究團隊。他的研究涵蓋三維視覺、物體與場景識別、生成建模以及智能系統等方向，發表了數百篇在 CVPR、ICCV、ECCV、NeurIPS 等頂級會議和期刊上的論文，共計 25 萬 + 引用，H-index 207。

INSAIT 簡介：

INSAIT（Institute for Computer Science, Artificial Intelligence and Technology）成立于 2022 年、坐落保加利亞索菲亞，面向計算機科學與人工智能的前沿基礎與系統研究，方向覆蓋計算機視覺、機器人、自然語言處理、安全與可信 AI、量子計算、算法與理論及信息安全；與ETH Zürich、EPFL 建立戰略合作，師資與博士后來自 ETH、EPFL、CMU、MIT 等頂尖院校。研究院與 Google、華為、AWS、Toyota、vivo 等開展產學協同，并參與歐盟 “AI 工廠” 計劃（總額 €90M）。近年學術產出亮眼：ICCV’25 接收 13 篇、CVPR’25 接收 7 篇、CVPR’24 接收 16 篇，獲 FOCS’24 最佳論文。INSAIT 長期招募 Faculty、PostDoc、PhD 與 RA（可 host 碩士畢設），提供具競爭力的資助與支持，并提供往返機票與住宿，科研環境開放、高效、國際化。歡迎私信了解更多情況～

近期招生信息：

博士研究生招生信息 | INSAIT & Google 聯合項目

我們正在招收多名博士研究生，研究方向為：基于多模態模型的 Egocentric（第一人稱）視頻理解。

本項目由 INSAIT 與 Google 聯合支持，為有志于在人工智能與計算機視覺前沿領域深造的同學提供優越的研究環境與資源支持。

申請方式

請通過 INSAIT PhD 招生頁面 https://insait.ai/phd/ 提交申請，并注明【INSAIT-Google-Egocentric】；

如有相關問題，可郵件聯系 yuqian.fu@insait.ai。

我們熱忱歡迎對 Egocentric 視頻理解與多模態 AI 充滿興趣的同學加入！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.