![]()
新智元報道
編輯:LRST
【新智元導讀】水下機器人在復雜環境中導航和建模,需解決深度感知難題。研究人員提出StereoAdapter框架,結合單目和雙目視覺,利用自監督學習,在無水下真實深度標簽下,高效適配視覺基礎模型,實現高精度深度估計,顯著提升水下機器人導航和目標檢測能力。
水下環境中的深度感知對水下機器人自主導航、目標檢測和三維重建等任務至關重要。
相比單目方法,雙目視覺可以通過雙目相機直接獲得具有度量尺度的3D深度,避免了單目深度固有的尺度不確定性。
然而,將現有視覺算法直接應用于水下場景會遇到顯著挑戰。
水下成像因光學特性差異引入嚴重的域偏移:水對不同波長光的吸收導致顏色和亮度隨距離衰減,水體中的懸浮顆粒會產生前向/后向散射,攝像機與水的界面產生復雜折射。
這些因素違背了陸地視覺中常用的光度一致性假設,使得在水下獲得可靠的雙目匹配變得更加困難。
在此背景下,目前的方法面臨兩大挑戰:
如何參數高效地將龐大的視覺基礎模型(如在海量陸地數據上訓練的單目深度編碼器)適配到水下域,而不依賴大量有標注的水下數據;
如何將全局一致但存在尺度模糊的單目深度先驗與局部精確但光度敏感的雙目匹配約束緊密融合,在自監督條件下充分發揮雙方優勢。
此前一些研究嘗試從不同角度結合單目和雙目信息,例如TiO-Depth提出了「二合一」的單目-雙目聯合框架,Stereo Anywhere利用視覺基礎模型提供的單目先驗來增強雙目匹配,實現了在低紋理或反光場景下的零樣本泛化能力。
但在水下場景,劇烈的域差異依然使這些方法效果受限。
針對上述難題,北京大學等機構的研究人員提出了全新的StereoAdapter框架,以自監督學習為基礎,在不需要水下真實深度標簽的情況下,將強大的單目深度基礎模型與雙目幾何有機結合。
![]()
論文鏈接:https://arxiv.org/pdf/2509.16415
具體來說,研究人員通過低秩適配(LoRA)技術,將預訓練的單目深度模型高效地微調到水下域;然后以其輸出的單目深度作為全局先驗,結合一個循環迭代細化的雙目匹配模塊,在逐步優化中融合單目與雙目的優勢。
這樣既保證了深度預測的全局合理性,又利用雙目約束糾正了單目先驗可能存在的尺度和細節誤差。整個設計注重參數效率和訓練效率,使模型能夠以較小開銷完成水下域的適配和部署。
![]()
論文作者張澤宇是Richard Hartley教授和Ian Reid教授指導的本科研究員。他的研究興趣扎根于計算機視覺領域,專注于探索幾何生成建模與前沿基礎模型之間的潛在聯系。張澤宇在多個研究領域擁有豐富的經驗,積極探索人工智能基礎和應用領域的前沿進展。
唐浩現任北京大學計算機學院助理教授 / 研究員、博士生導師、博雅和未名青年學者,入選國家級海外高水平人才計劃。曾獲國家優秀自費留學生獎學金,連續兩年入選斯坦福大學全球前 2% 頂尖科學家榜單。他曾在美國卡耐基梅隆大學、蘇黎世聯邦理工學院、英國牛津大學和意大利特倫托大學工作和學習。長期致力于人工智能領域的研究,在國際頂級期刊與會議發表論文 100 余篇,相關成果被引用超過10000次。曾獲ACM Multimedia最佳論文提名獎,現任ACL 2025、EMNLP 2025、ACM MM 2025領域主席及多個人工智能會議和期刊審稿人。
LoRA適配與雙階段框架
StereoAdapter采用了雙階段結構,包括單目深度估計階段和雙目深度細化階段。
![]()
如圖所示,第一階段使用預訓練的Depth Anything V2單目深度模型作為基礎。研究人員在其Transformer編碼器中插入LoRA模塊進行水下域適配,只需增加極少量參數,就能讓模型學習水下圖像的特有特征,而原有的大量權重保持凍結。
通過這種方式,模型保留了預訓練過程中學到的通用幾何先驗,同時針對水下場景進行了調整。在編碼器輸出的多尺度特征(金字塔分辨率從1/4到1/32)基礎上,研究人員引入SDFA模塊逐級融合相鄰尺度特征,以兼顧局部細節和全局上下文。
接著,單目階段的解碼器生成一個稠密視差體積(離散采樣多個視差假設)并輸出初始的粗略視差圖。
由于Depth Anything V2具備很強的跨數據集泛化能力,這個初始視差預測在水下也具有全局一致的深度結構但精度較粗。
在第二階段,StereoAdapter利用第一階段提供的視差作為初始值,結合雙目圖像進行循環匹配細化。
研究人員構建了一個基于GRU的遞歸雙目匹配模塊。首先,從左、右圖像提取特征金字塔并計算多尺度相關體積——這類似于生成不同尺度下的代價空間,用于表示視差假設的匹配代價。
與此同時,將第一階段得到的初始視差轉換為深度,并與稀疏雙目匹配得到的可靠深度點進行比對:通過特征匹配獲取一些高置信度的對應點,計算出對應的真實尺度深度,然后與單目深度進行比較。
如果發現單目預測的整體尺度存在偏差,研究人員會估計一個尺度和偏移校正項來調整單目深度;同時,根據這些錨點對局部誤差進行插值傳播,以細化初始深度圖。
這一混合尺度對齊過程確保進入循環細化模塊的初始深度既保持單目先驗的全局尺度,又在局部盡可能貼近真實度量值。
接下來,經過尺度校正的初始視差送入迭代細化單元。循環模塊借鑒RAFT-Stereo等方法,引入ConvGRU網絡來多次更新視差。
具體而言,在每次迭代中,根據當前視差估計從多尺度相關體積中提取一組匹配特征(類似「lookup」操作),并與當前迭代的隱藏狀態、單目上下文特征一起輸入GRU單元。
這里,研究人員使用一種融合上下文編碼器:一方面直接復用單目階段適配后的Transformer特征(即基礎模型在水下調優后的多尺度特征),另一方面引入一個輕量級CNN提取左圖像的局部細節特征。
Transformer提供高層語義和全局信息,CNN提供局部紋理和邊緣,二者經過通道對齊后逐元素相加融合,形成多尺度的上下文特征集合。這些特征用于初始化GRU的隱藏狀態,并在每次迭代中與相關體積特征一起為GRU提供指導。GRU每迭代輸出一個視差增量Δd,將其加到當前視差估計上,實現逐步細化。
在多次循環更新后,可以獲得精細的視差預測,并通過上采樣恢復到原始分辨率,最終轉換為深度圖。
這種循環匹配機制使StereoAdapter能夠反復優化匹配誤差,逐步逼近高精度的結果:它利用單目提供的全局先驗引導每次匹配搜索,從而在低紋理或存在散射的區域也能逐漸收斂到正確的視差。
值得一提的是,雙目模塊充分復用了單目階段的基礎模型編碼器。通過在雙目階段繼續使用融合了LoRA權重的Depth Anything編碼器,避免了訓練和部署額外的大型網絡,既節省了參數又確保兩階段特征表述的一致性。
配合小型CNN補充局部信息,這種設計在保證精度的同時控制了計算開銷,使得StereoAdapter具備實際部署的輕量性。
自監督訓練策略
研究人員采用自監督學習來訓練StereoAdapter的兩階段網絡,從而擺脫對水下真值深度數據的依賴。在單目階段,借鑒Monodepth等經典方法,利用左右視圖的一致性構造訓練信號。
具體來說,讓單目網絡預測左圖的視差后,將右圖向左重建,得到合成的左圖像,并與真實左圖進行比較。這種光度重建損失由加權的像素強度差異(如L1范數)和結構相似性(SSIM)組成,用以度量重建圖像和原始左圖之間的差距。
與此同時,添加一個多尺度邊緣感知的平滑損失,約束視差圖在紋理較平坦區域的平滑性,同時保持深度邊緣與圖像梯度對齊。單目階段的總損失即為重建損失和平滑項的加權和。
訓練時,僅優化LoRA模塊和解碼器等新增參數,預訓練的編碼器權重仍然凍結不動。通過這種方式,第一階段實現了對水下域的自適應:LoRA模塊調整基礎模型的特征提取使其適應水下圖像分布,而網絡通過與右圖的重建對比學會輸出合理的視差。
在雙目細化階段,研究人員設計了多項自監督損失共同優化。
首先是雙目重建損失,類似單目階段,用最終迭代得到的視差將右圖向左拼合,得到重建的左圖像?L,并與真實左圖進行光度一致性約束(L1+SSIM)。
考慮到雙目視差無法在遮擋區域重建出左圖有效像素,研究人員利用單目初始視差估計遮擋掩膜
對于判定為右目不可見的區域,不強行讓去逼近真實左圖,而是引入單目預測的左視圖重建來填補,形成混合重建圖
這樣在有遮擋的像素位置采用單目重建,避免了雙目重建誤差。
這種遮擋處理策略提高了訓練穩定性,使網絡不用在無效的對應關系上浪費精力。
其次,框架中引入視差引導損失,鼓勵最終精細視差與初始單目視差保持一致的結構趨勢。
具體包括兩部分:
1)初始和最終視差圖的梯度(水平和垂直方向)差異損失,保證細化后的深度邊緣不要偏離單目先驗提供的主要輪廓;
2)對未發生視差投影錯誤的像素,直接約束初始與最終視差的差值,防止網絡過度偏離單目提供的合理值。
最后,同樣在最終視差上施加邊緣感知的平滑正則化,以消除局部噪聲。雙目階段的總損失是上述重建項、平滑項和引導項的加權和。
通過單目階段的全局引導和雙目階段的局部校正相結合,StereoAdapter實現了一個純自監督的訓練流程。在訓練初期,單目先驗為雙目匹配提供了良好的起點;隨著迭代優化,雙目細化模塊又不斷提升局部精度。值得強調的是,研究人員還引入了動態LoRA機制來進一步提升訓練效果和模型的持續適應能力。
動態LoRA機制
傳統LoRA方法為每層預先設定一個固定的低秩r,通過增加
來微調預訓練權重,其中
然而,不同網絡層在適配水下時所需的容量各異,固定秩可能要么限制高層次特征的調整(秩過低),要么浪費參數引入冗余(秩過高)。
為此,研究人員設計了動態LoRA策略,讓每層的有效秩由數據自適應決定。做法是為每個低秩分量引入一個可學習的重要性權重,替代簡單的BA相加。
具體地,LoRA的權重增量被改寫為
初始時所有隨機賦值,訓練過程中,在損失中加入L1范數正則來促使權重產生稀疏化。
通過軟閾值迭代等近端優化方法,每次更新后將小于閾值的權重壓至0,從而逐漸裁剪掉貢獻不顯著的秩分量。
訓練前期從0緩慢提高,讓模型先充分探索各個秩方向的作用,再逐步加大稀疏力度避免重要方向過早被裁掉。
此外,研究人員采取「兩階段」訓練:先進行一定比例(例如45%)的迭代不應用閾值操作(密集階段),再在剩余迭代中開啟稀疏正則(稀疏階段)。這樣保證模型先在完整秩空間學習,再精簡。
訓練完成后,將剩余的非零低秩分量合并回主干權重——也就是直接將作為新的編碼器權重。
這意味著在推理時無需額外的LoRA分支,模型已將水下知識無縫融合入基礎模型中,不增加任何計算開銷。
動態LoRA實現了自動秩選擇:讓模型自行決定每層需要多大調整容量,同時保證最終模型的參數量和推理效率幾乎不受影響。
該機制對跨域持續學習尤為有效,在不同水下數據集上持續自監督訓練時,編碼器能夠不斷調整各層的秩來適應新場景,使單目先驗和雙目細化模塊始終協同工作。
UW-StereoDepth-40K 合成數據集
由于水下真實雙目數據匱乏,研究人員構建了一個大規模合成水下雙目數據集UW-StereoDepth-40K,以支持模型預訓練和驗證其泛化性。
借助Unreal Engine 5 (UE5)的高保真渲染能力,研究人員創建了逼真的水下虛擬環境,并嚴格保證左右相機的幾何一致性。
具體而言,設計了四種多樣的水下場景:珊瑚礁、工業結構(如水下管道設施)、沉船以及自然海床等,每個場景都使用了豐富的3D素材(高精度掃描的珊瑚和海洋植物、水下機器人模型、沉積物和巖石、各種水下人造結構等)進行細節填充。
與基于生成模型的方法不同,UE5渲染確保了左右視圖像素級對齊,杜絕了由隨機差異引起的偽匹配問題。在此基礎上,研究人員對環境進行了多方面的隨機化和多樣化:
相機基線:在4cm、10cm、20cm、40cm等多個距離中隨機取值,涵蓋從小型觀測ROV的窄基線到大型作業ROV的寬基線配置。這樣確保模型可適應不同平臺的雙目相機參數。
光照和介質:模擬真實的焦散效應(水面波動形成的光斑)、漂浮粒子(附帶物理運動)、以及與深度相關的色偏和霧化。這些效果逼真地再現了陽光照射、水體懸浮物和水色隨深度變化等現象,使數據涵蓋各種典型水下視覺退化情形。
數據集通過在每個場景中沿連續軌跡移動雙目相機采樣獲得。每隔固定距離截取一對立體圖像,共計獲得40,000對高分辨率(1280×960)圖像及其對應的真值深度圖和語義分割掩膜。為保證數據質量,實行了嚴格的篩選和質檢:自動濾除紋理過于貧乏或深度范圍異常(>50米)超出一般水下操作距離的幀;
計算左右圖像的結構相似度以確保立體一致性,并由領域專家人工檢查圖像的逼真度、剔除可能的渲染瑕疵。最終的UW-StereoDepth-40K涵蓋多種環境和條件,從明亮的淺海到幽暗的深水,都具有高度逼真的視覺效果和準確的深度標簽。
這為水下雙目深度估計提供了一個大型高質量的訓練資源,有助于在無真實數據時提高模型對水下域的適應性。
在StereoAdapter中,首先在UW-StereoDepth-40K上進行預訓練,使模型先掌握水下場景的一般幾何和視覺特性。由于合成數據提供了充足的跨視角、跨條件樣本,模型能夠學到魯棒的特征表示,為后續在真實水下場景中的零樣本遷移打下基礎。
實驗表明,在該合成數據上預訓練,再在下游任務上微調或直接評估,顯著優于不利用該數據集的情形,證明了UW-StereoDepth-40K在彌合模擬與真實差距方面的重要作用。
![]()
仿真實驗結果
研究人員在仿真環境和真實數據上對StereoAdapter進行了全面評測,結果顯示出明顯優勢。首先,在仿真數據集上,選用TartanAir數據集中的水下子集和SQUID水下數據集作為基準。
TartanAir水下子集包含22段模擬水下航行序列,共13,583對立體圖像;SQUID數據集由4個不同真實水下場景下采集的57對立體圖像組成。評測采用標準的深度估計指標:絕對相對誤差(REL)、均方根誤差(RMSE)以及δ<1.25精準度(A1)等。
在TartanAir水下集上,StereoAdapter在零樣本設置(僅用合成數據訓練,未在TartanAir上微調)下就超越了現有所有方法,取得了最優的精度。
該模型實現了最低的RMSE ~2.89,REL也僅有0.0527,同時準確率A1達94.67%,均為該基準下的最佳表現。
相比之下,傳統雙目網絡如RAFT-Stereo等在同樣未微調情況下RMSE約在4.0以上;即便結合基礎模型的Stereo Anywhere,其RMSE也有3.16,A1為94.42%。
該方法顯著降低了誤差。例如相對于此前性能最好的Stereo Anywhere,RMSE降低了約6.1%。這證明了單目先驗+LoRA適配+循環細化的設計在水下環境下具備卓越的泛化能力。
將StereoAdapter在TartanAir上進行微調后,性能進一步提升:RMSE降至2.78,A1提高到95.12%
這進一步表明,合成預訓練 + 真實微調可以協同發揮作用,使模型在目標域達到更高精度。
在SQUID數據集上,該方法同樣表現優異。SQUID場景更接近真實拍攝,很多傳統方法在零樣本遷移時誤差較大。
然而StereoAdapter在未見過SQUID的情況下,取得了僅1.88的RMSE和0.0806的REL,以及94.13%的A1準確率,全面領先于其他對比方法。
例如,著名的RAFT-Stereo(在Scene Flow上訓練)在SQUID上的RMSE約1.96,Selective IGEV在微調后RMSE也有1.93,而文中提出的方法在零樣本就達到1.88的水平。若再加上TartanAir數據微調,RMSE進一步降至1.86,A1達94.28%
總體來看,StereoAdapter在仿真環境(TartanAir)和真實靜態數據(SQUID)上均取得新的SOTA成績:相較之前最好的結果,RMSE分別降低約6.11%和5.12%。
這些結果也凸顯了合成數據預訓練的價值——模型在UW-StereoDepth-40K上學到的表示使其在陌生真實場景中也能保持低誤差。
除了定量指標,研究人員還比較了深度圖的可視化效果。如圖5所示,StereoAdapter輸出的深度圖在遠距離區域的尺度預測更準確,且整體連貫性和細節保真度均優于基準方法。
![]()
例如,在一些水下弱紋理的背景區域,該方法依然生成了清晰平滑的深度,而某些對比方法要么深度噪聲很大要么直接無法給出合理值。這進一步驗證了該框架在困難視覺條件下的魯棒性。
實際部署與水下測試表現
研究人員將StereoAdapter部署在實際的水下機器人平臺上,驗證其在真實環境中的效果和速度。
研究人員使用BlueROV2水下機器人搭載ZED 2i雙目相機,在一個室內水池環境中進行了測試。
![]()
機器人搭載了NVIDIA Jetson Orin NX(16GB)嵌入式計算模塊用于在線深度估計。
為了評估算法精度,研究人員在實驗前獲取了測試場景的高精度三維重建:通過在水池中放置AprilTag定位板,使用體感相機和多視幾何方法離線生成了場景的帶度量尺度的三維網格。
運行過程中,機器人在水池中分別設置的三種障礙布局(稀疏分散、并排排列、密集聚集)下執行九段不同軌跡,攝像頭捕獲同步的雙目視頻。
研究人員利用先驗標記的位置將每幀相機姿態對準預構建的場景網格,并渲染出對應視角下的「參考深度」(作為近似真值)。這樣就獲得了每幀圖像的評估基準,用于計算REL、RMSE等指標,以衡量各方法在真實水下的表現。
實驗結果(表III)表明,StereoAdapter在真實水下環境中依然保持了最佳性能。
![]()
與兩個具有代表性的最新方法相比(Stereo Anywhere和FoundationStereo),提出的方法誤差更低、準確度更高:StereoAdapter的RMSE約1.97,A1準確率94.78%,而Stereo Anywhere的RMSE為2.51(A1=91.20%),FoundationStereo的RMSE為2.14(A1=89.61%)
相比之下,TiO-Depth在該場景下表現不佳,RMSE高達6.76,說明缺乏雙目幾何約束的單目方法在水下極易失效。
該方法對各種玻璃杯和巖石障礙都生成了清晰準確的深度映射,在物體邊緣和無紋理水區域都顯著優于對比方法。
![]()
值得關注的是,StereoAdapter不僅精度高,而且推理速度快、適合部署。在Jetson Orin NX上,將輸入分辨率調整為640×360并進行了實時測試,各方法的單幀處理時延如表VII所示:FoundationStereo平均每幀需約1815毫秒,Stereo Anywhere約1440毫秒,而StereoAdapter僅約1113毫秒。
![]()
也就是說,該方法在同樣硬件上比Stereo Anywhere快約327ms,比FoundationStereo快約702ms。
這一速度優勢源自對基礎模型的高效利用和架構優化:StereoAdapter只使用了Depth Anything的小型基座版本(B模型)且僅在單目階段前向一次,就提供先驗和特征,隨后輕量的GRU模塊進行迭代 refinements;
而Stereo Anywhere需要兩次調用大型Depth Anything-L模型并額外進行3D卷積融合,FoundationStereo則使用了沉重的Transformer和3D成本體積處理。
因此,該方法在保證精度領先的同時,將計算量和時延控制在了嵌入設備可接受的范圍。
這對于實際水下機器人在線避障和導航來說是非常關鍵的。
BlueROV2上的實驗充分展示了StereoAdapter在真實條件下的魯棒性和實用性:它能夠以接近實時的速度提供穩定可靠的深度估計,為水下機器人的環境感知提供了有力支持。
消融分析與效率對比
為深入理解各組件的作用,研究人員進行了多組消融實驗。
循環細化模塊配置
嘗試改變GRU的層數、隱藏維度和迭代次數,以觀察對精度和效率的影響。
結果發現,增加GRU深度(從2層增至3層再到4層)可以持續降低誤差,例如4層128隱單元32迭代的配置取得了RMSE 2.614的最好成績。但考慮到部署效率,最終選擇了3層128維32步的配置,在精度(RMSE ~2.78)和速度之間取得平衡。
若將隱藏維度增大到256雖有輕微精度提升(RMSE ~2.62),但計算量也顯著增加。另外,研究人員發現過多迭代(如64步)反而可能造成收斂不穩定并損傷效果,因此32次迭代已足夠。
動態LoRA策略
驗證了動態秩調整的有效性。
對比固定秩的LoRA,該方法能以更少參數達到更高精度。研究人員嘗試了不同的動態LoRA超參數組合,包括基秩大小(16或32)、稀疏閾值κ(如0.005或0.01)以及密集訓練比例(50%或45%)等。
消融結果表明,當前采用的配置(秩16、閾值0.01、45%密集迭代)取得了最優的REL 0.049和RMSE 2.783,優于其他設定。這說明使用動態LoRA能夠自動找到合適的秩, 比如在模型中每層平均有效秩最終大大低于16,使參數更精簡卻不損失精度。
如果不使用動態策略而是固定較高秩(如32),雖然也能適配水下域,但參數量增加且未顯著提升精度;相反固定過低秩又會限制性能。因此動態LoRA在參數效率和效果上取得了良好折中。
訓練超參數
研究人員也考察了訓練過程中的關鍵超參數設置,如batch size、學習率和單雙階段的訓練epoch分配。
實驗顯示,中等批大小(8或16)要比小批量(4)穩定且效果更好;學習率1×10^(-4)比2×10^(-4)收斂更平穩,后者可能引入震蕩。
此外,將總訓練分成階段一20輪+階段二40輪這種比例可以取得最佳結果——首先20個epoch專注單目先驗學習,然后40個epoch在雙目任務上細化,使模型先打好單目基礎再充分調整雙目模塊。
這種多階段訓練策略明顯優于讓模型同時訓練單目和雙目任務或者縮短某一階段的情況。
最終,最佳組合為:batch=8,lr=1e-4,階段一20輪+階段二40輪,對應REL約0.051,RMSE約2.783。
這一消融分析驗證了各設計選擇的合理性:循環GRU深度、動態LoRA和兩階段訓練均對StereoAdapter的高性能有重要貢獻。
同時,通過優化設計,研究人員確保了模型在推理效率上的優勢:如前述,該方法在嵌入平臺上的推理速度快于其他方案(1113ms vs 1440ms/1815ms),體現了參數高效微調和輕量級細化模塊帶來的整體效率收益。
綜合來看,StereoAdapter在保持領先精度的同時做到了模型小、速度快,非常適合實際應用。
未來展望
盡管StereoAdapter取得了良好效果,研究人員也認識到當前工作中仍有一些局限,值得在未來進一步探索。
首先,模型局部匹配的局限:雙目細化模塊基于RAFT風格的GRU迭代,更偏重短距離、局部的逐步匹配記憶。
在極端惡劣的水下條件下(例如嚴重渾濁導致可視距離極短、大范圍高亮反射或者大片無紋理區域),僅靠當前的局部遞歸可能難以捕獲全局線索。
換言之,當水下圖像質量極差或場景缺乏可辨識特征時,網絡可能仍會遇到困難。這提示我們在模型架構上可以引入更長程依賴的機制,結合局部匹配與全局推理來提升魯棒性。
其次,模擬數據域隙:盡管精心構建了UW-StereoDepth-40K,并已覆蓋許多水下現象,但畢竟虛擬數據的分布相對有限且理想化。
現實海洋環境的復雜度更高:例如多次散射、偏振光效應、動態水體顆粒濃度變化、相機傳感器的特定噪聲(滾動快門失真、鏡頭畸變)等等,這些在UE5中僅被部分建模或根本無法完全還原。
因此,該模型在實際部署中可能遇到某些未見過的分布偏差。盡管BlueROV2實驗已證明了一定的泛化性,但拓展數據源以進一步彌合模擬-真實差距仍然非常必要。
為應對上述問題,未來研究人員計劃在數據和模型兩方面改進:
數據層面,將探索更豐富的訓練數據生成方案。
一方面,在UE仿真中引入更多樣的隨機化和更逼真的物理模型:例如結合程序化生成手段,擴大場景和環境效果的覆蓋范圍,
引入粒子光學模型以模擬多路徑散射、根據真實水質光譜校準渲染參數等。
另一方面,考慮利用無標注的真實水下視頻對模型進行自適應訓練:通過自訓練(self-training)策略,讓模型在真實序列上進行推斷并根據高置信度預測更新自身,從而逐步提升對真實域特性的適應能力。配合必要的置信度篩選和約束,這將有望大幅減少剩余的域差異影響。
模型層面,計劃引入多任務學習和更長時空上下文來增強模型能力。
一方面,可以嘗試讓模型同時學習預測深度、法向、語義等多種輸出,使其在訓練中吸收更豐富的幾何和語義信息,從而提升對場景的理解深度。
另一方面,在架構上探索具有更長依賴的高效解碼器,例如近期提出的線性時間序列模型(如Mamba或RWKV等),以捕獲更廣域的匹配關系。
同時,還考慮拓展到時間序列和多視角的輸入,讓模型利用連續幀或多相機的數據獲取時序/多視圖約束,提高在動態場景或更大范圍場景中的穩定性,并輸出不確定度估計幫助判斷哪些區域深度不可靠。
最后,在部署方面,將研究模型壓縮和量化技術,使StereoAdapter更好地適應嵌入式平臺的資源限制。
通過上述改進方向,研究人員希望進一步提高StereoAdapter在更加多變的真實水下環境中的表現和效率,使之成為水下機器人可靠可信的視覺模塊。
總的來說,StereoAdapter的提出展示了將視覺基礎模型與自監督雙目幾何相結合的巨大潛力。
隨著數據和模型的不斷完善,此類方法將在自主水下導航、基礎設施巡檢、海洋生態監測等領域發揮關鍵作用,推動水下機器人技術向前發展。
參考資料:
https://arxiv.org/pdf/2509.16415
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.