![]()
本文作者來自上海交通大學、英國曼徹斯特大學與香港中文大學。團隊成員包括:徐博、王鈺超、樂心怡(上海交通大學,自動化系),郭宇鵠、王昌凌(英國曼徹斯特大學,機械與航空航天工程學院),王文婷、任揚(香港中文大學,機械與自動化工程學系)。
表面重建的核心挑戰,在于在少量視角下同時兼顧幾何準確性、細節還原與結構完整性。現有神經隱式路線,在樣本稀疏時容易出現跨視角對應不穩、邊界發糊、局部缺失等現象;當可見區域有限、紋理不明顯、遮擋復雜時,這些問題會被進一步放大。
為了補救,不少工作嘗試引入單目深度、法線或稠密視角序列等外部幾何線索,但這通常意味著額外的采集成本和不穩定的噪聲來源,一旦誤差被帶入,反而會破壞原本已經較為準確的幾何。
另一條思路是通過更復雜的網絡結構或強先驗來提升穩定性,可遷移性與訓練成本卻隨之上升,且在真實場景下的魯棒性并不總是穩定。
歸根到底,稀疏視角的難點在于覆蓋不足導致的匹配不穩定與形輻射歧義:同一結構在不同視角里的局部片段難以可靠對應,優化過程容易迷失在局部最優。
直觀經驗卻告訴我們,只要把同一物體的 “對應部分” 對齊,形狀就會變得清晰。基于這一樸素而有效的直覺,作者提出SERES(Semantic-Aware Reconstruction from Sparse Views),在不改動主干框架的前提下,把跨視角的語義一致性變成一種訓練期先驗注入到模型里,用低成本的方法去解決高價值的歧義問題,讓少量視角也能得到清晰而完整的幾何。
![]()
該工作來自上海交通大學,曼徹斯特大學和香港中文大學的團隊,目前已被 IEEE Transactions on Visualization and Computer Graphics(TVCG)接收
![]()
- 論文標題:SERES: Semantic-Aware Neural Reconstruction from Sparse Views
- 論文主頁:https://seres0.github.io/
- 論文鏈接:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=11197045
方法概覽
SERES 的設計圍繞兩條主線展開:語義匹配先驗與區域級正則。整體以訓練期插件的方式接入常見主干,如 NeuS 或 Neuralangelo,不改變體渲染與隱式表面的基本表達,僅在訓練中提供額外的線索與約束。
![]()
圖 1 SERES 方法流程
語義匹配先驗
首先是語義匹配先驗。直觀地說,作者讓 “來自他視角的提醒” 在訓練中始終存在。具體做法是,從每張輸入圖像中自動提取一組穩定的語義塊與幾何原語。語義塊側重于外觀與語義的一致性,幾何原語則對應更具結構意義的區域。隨后,對這些語義塊提取圖像級特征,并在多視角之間進行交互式的對齊與聚合,讓不同視角中 “看似相似” 的部分彼此對上號。這樣得到的先驗信息被作為額外輸入喂給重建主干,使得主干在每一次更新時,都能顯式感知來自其他視角的對應關系。
![]()
圖 2 語義匹配質量對重建質量的影響
這種做法的好處在于,模型不再孤立地依賴單一視角的證據,而是在訓練的每一步都被提醒哪些細節需要被保留、哪些邊界應當對齊、哪些區域存在歧義需要更謹慎地處理。對于稀疏視角尤其是極少視角的情況,這份提醒能顯著減少錯配帶來的形狀扭曲與邊界模糊。
點提示引導的區域級正則
僅有像素級誤差往往不足以約束形狀的全局一致性,尤其在紋理稀薄或反射復雜的區域,像素級監督容易放大噪聲。SERES 在圖像空間引入了可解釋的區域一致性。基于前述的幾何原語,作者為每張圖像得到一組覆蓋關鍵部件的區域分割與掩膜。在訓練過程中,這些可解釋的區域與模型渲染得到的語義分布進行對齊,形成面向區域的一致性約束。它鼓勵模型在真實邊界處給出更清晰、穩定的表面表達,在容易產生歧義的部分盡量減少破碎或漂移。與僅依賴像素損失不同,區域級正則在結構層面提供了 “形狀應該如何對齊” 的強信號,能有效抑制噪聲碎片,讓最終的網格更干凈、曲面更連貫。
![]()
圖 3 語義屬性體渲染結果
從工程實現角度看,SERES 的兩條主線都只在訓練期生效,不改變推理流程。語義先驗分解為穩定分塊、特征提取與跨視角聚合三步,接口簡單;區域級正則以可解釋的掩膜為錨,和主干的渲染分布對齊即可。整體額外計算開銷小,訓練時間僅有小幅增加,對不同主干的適配也無需侵入式改造。
消融實驗表明(見實驗部分),缺失語義匹配先驗時,跨視角錯配與形變明顯增多;去掉區域級正則時,網格易出現噪聲與斷裂;而使用未優化或質量不高的先驗,同樣會拖累最終幾何。
實驗
在 DTU 的稀疏多視角設置中,SERES 作為訓練期插件顯著提升了重建質量與新視角合成質量。與主流基線相比,畫面質量指標在多組場景中全面優于對應的原始主干,同時幾何誤差在從極少到較少視角的范圍內穩定下降。隨著視角數從極少逐步增加,誤差的下降趨勢依舊保持,說明這套先驗與正則對不同稀疏程度都有穩定收益。
![]()
![]()
圖 4 DTU 重建效果
![]()
圖 5 視角數變化的影響
在 BlendedMVS 以及多種真實場景(高反射、復雜拓撲、低紋理) 中,SERES 輸出更完整、更干凈的幾何,在難匹配區域有效減少斷裂與噪聲,體現出良好的魯棒性與通用性。
與僅依賴像素級誤差不同,區域級正則的價值在真實邊界處更為直觀。很多難例,如重復紋理、細桿與枝類的復雜拓撲,往往在像素層面難以穩定監督。區域級約束將這些區域包裹起來,以更高層次的一致性去牽引優化,使得模型對邊界位置的判斷更果斷,對結構連貫性的把握更穩定,從而減少邊緣糊、殼體破洞以及不必要的表面漂移。對少視角訓練而言,這種結構層面的 “拉緊” 尤為關鍵,它相當于給優化過程加上了可靠的護欄。
![]()
圖 6 BMVS 重建效果
![]()
圖 7 實拍場景重建效果
消融實驗顯示,缺失語義匹配先驗或區域級正則都會明顯拉低重建質量,這兩者是互補且必要的。
![]()
圖 8 消融實驗結果
結論
SERES 把跨視角的語義一致性與結構層面的區域約束,變成一種低成本、可解釋、可復用的訓練期先驗。它以即插即用的方式接入現有的隱式重建框架,不需要額外傳感器或復雜改造,即便在很少的視角下,也能恢復邊界清晰、結構完整、細節可靠的表面。面對更大規模場景、更復雜材質與光照等現實挑戰,這一思路仍有充分拓展空間。對工程團隊而言,SERES 的接口簡單、遷移門檻低、真實場景友好,適合直接集成到當前的稀疏三維重建工作流中,用更少的視角獲得更高保真的幾何重建。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.