![]()
新智元報道
編輯:犀牛
【新智元導讀】銀河通用聯合多所大學發布了全球首個跨本體全域環視導航基座大模型NavFoM,讓機器人能自己找路,而不再依賴遙控,從而推動具身智能向規模化商業落地演進。
今年 6 月,一支機器狗的視頻在社交平臺上刷屏——它在未訓練過的真實場景(如人流密集的商場里)Zero-Shot地跟隨用戶,完成自主移動、避障、轉向,并能能聽懂「跟著媽媽」、「去陪孩子」的語音指令。
那背后,是銀河通用發布的導航大模型 TrackVLA()。
該模型由仿真大數據訓練,在真實復雜場景中實現 Sim2Real,完成智能的用戶跟隨,展現了極強的 C 端應用落地潛力。
最近,銀河通用的導航大模型技術又迎來了質的飛躍。
銀河通用聯合北京大學、阿德萊德大學、浙江大學等團隊,推出了全球首個跨本體全域環視的導航基座大模型——NavFoM(Navigation Foundation Model)。
如果說 TrackVLA 讓機器人學會「跟著人走」,那么 NavFoM 的意義在于——讓機器人掌握全棧「移動的基礎知識」。作為基座大模型,其自身可以做到:
全場景:同時支持室內和室外場景,未見過的場景 Zero-Shot 運行,無需建圖和額外采集訓練數據;
多任務:支持自然語言指令驅動的目標跟隨和自主導航等不同細分導航任務;
跨本體:可快速低成本適配機器狗、輪式人形、腿式人形、無人機、甚至汽車等不同尺寸的異構本體。
除此之外,該模型允許開發人員以之為基座,通過后訓練,進一步進化成滿足特定導航要求的應用模型。
下面將從技術視角,解析其技術特點,介紹以此為基石衍生出的應用模型具身和對應的產業應用價值。
「導航」是具身智能的
基礎能力之一
導航是所有機器人移動操作的基礎,也是感知、理解、決策、行動的綜合體現。
然而在過去很長一段時間里,具身導航的技術體系是相對碎片化的——不同任務(如跟隨、搜索、駕駛)各用一套算法,不同機器人(如四足、人形、無人機)又各自訓練模型。每換一個任務或本體,模型就得重新開發。
這樣的割裂不僅使得具身導航模型訓練時效率低,二次開發難度大,還造成具身模型商用落地周期長,在不同本體上、不同場景中規模化商業應用的邊際成本高等問題。
對此,銀河通用的研發團隊認為,讓機器人具備可遷移智能、邁向大規模商用的第一步是讓具身導航模型技術凝聚成一個通用的具身大腦,即構建一個能多任務、全場景、跨本體的具身導航大模型基座,實現讓具身導航模型從「學會完成一條導航智能」到「真正理解機器人移動」的跨越。
從 TrackVLA 到 NavFoM
不僅能「跟著走」更能「自己找路」
基于這一思考,銀河通用聯合北京大學、阿德萊德大學、浙江大學等團隊共同發布了新一代導航基座大模型——NavFoM(NavigationFoundation Model)。

這是全球首個跨本體全域環視導航基座大模型,把Vision-and-Language Navigation、Object-goal Navigation、Visual Tracking 和Autonomous Driving 等不同機器人的導航任務統一到相同的范式。
如果說 TrackVLA 是讓機器人能聽懂人類語言、跟隨目標前進,那么 NavFoM 的目標是讓機器人能夠自主感知世界,在完全未知的環境中自己決定去哪、怎么走。
統一范式
讓不同機器人「掌握同一種語言」
NavFoM重新定義了導航的底層邏輯。
過去,導航任務往往被拆分成識別、定位、規劃等獨立模塊,模型之間缺乏統一語言。
而 NavFoM 建立了一個全新的通用范式:「視頻流 + 文本指令 → 動作軌跡」。
無論是「跟著那個人走」,還是「找到門口的紅車」,在 NavFoM 里都是同一種輸入輸出形式。模型不再依賴模塊化拼接,而是端到端地完成“看到—理解—行動”的全過程。
![]()
這意味著,曾經割裂的任務經過統一的數據對齊和任務建模可以互相遷移;不同形態的機器人能共享學習經驗和運動知識。
例如,四足機器人在商場里學到的「避讓人群」經驗,可能會幫助無人機在空中理解「動態障礙」;自動駕駛模型中的「道路預測」,也能反哺輪式機器人在室內路徑規劃中的判斷。
統一的輸入與決策機制,讓機器人真正具備了跨任務的「認知遷移」能力。
體系升維
從「任務模型」到「智能基座」
NavFoM 通過兩項關鍵技術創新構建統一學習范式,讓機器人不僅看得懂、記得住、學得會,還能聯合利用不同本體、不同任務和不同場景的數據實現知識共享,最終成為一個基座模型,衍化出針對不同應用需求優化的產品級應用模型矩陣。
第一,TVI Tokens(Temporal-Viewpoint-Indexed Tokens)——讓模型理解時間與方向。
不同相機、不同角度、不同時間拍到的畫面,常常讓模型「迷失」。
TVI Tokens 就像時間軸與方向羅盤,給每一幀畫面加上時間和視角的標記,讓模型知道這幅圖像來自哪個角度、哪個時刻,從而理解空間的連續變化。
它讓模型同時兼容單目、環視、無人機等多種視覺輸入方式,真正具備「世界在變化」的時空理解能力。
![]()
第二,BATS 策略(Budget-Aware Token Sampling)——讓模型在算力受限下依然聰明。
導航時的視頻數據極其龐大,不可能每一幀都處理。
BATS 策略像人類的注意力系統,會動態判斷哪些畫面是「關鍵幀」,哪些可以略過。
越靠近當前時刻、越重要的場景,采樣概率越高,從而節省算力又不損失判斷準確性。
這一機制讓 NavFoM,這一7B參數級別的基座模型也能在真實機器人上毫秒級響應,兼顧實時性與精度。
![]()
給定 Token 上限,在不同幀數下的采樣分布(左圖);給定視頻幀數,在不同Token上限下的采樣分布(右圖)
長程VLN任務
千萬級高質量數據
讓模型「學懂世界」
NavFoM 的能力還來自于它龐大的訓練數據體系。
銀河通用構建了前所未有的跨任務數據集:包含八百萬條跨任務、跨本體導航數據,覆蓋視覺語言導航,目標導航,目標跟蹤,自動駕駛,網絡導航數據等多種任務;
以及四百萬條開放問答數據,讓模型具備語言與空間之間的語義理解能力,這一訓練量約為以往工作的兩倍左右;
![]()
訓練數據量對比
為降低訓練對硬件的需求并支持更大規模訓練,團隊還對圖像數據采用了視覺特征緩存(cache)機制,從而顯著減少在線計算開銷、提升訓練效率。
這些數據覆蓋了四足、人形、輪式、無人機等多種機器人形態,真正實現「在仿真中學,在現實中通」。
![]()
數據預處理
正因為有了這樣的數據與工程保障,NavFoM 學到的不只是「走哪條路」,而是如何感知「世界的結構」和「目標的意義」。
這讓它在陌生環境下依然能自主推理,完成零樣本導航與決策。
憑借架構創新與數據規模,NavFoM 在多個國際公開基準上均達到或刷新 SOTA 水平:在 VLN-CE、HM3D-OVON、NavSim 等任務中表現領先;在目標搜索、視覺語言導航、自動駕駛等任務上均展現強大的跨任務泛化能力。
更重要的是,它能在真實機器人上直接部署,無需針對任務微調,只需修改自然語言指令或相機配置即可。
在實測中,NavFoM 成功驅動多種形態機器人執行復雜任務:四足機器人長程自主跟隨、輪式機器人室內外混合導航、無人機復雜地形規劃飛行、自動駕駛系統的路徑推理與避障決策。
一個模型,驅動所有形態,標志著具身智能通用導航智能的雛形已然成形。
同一套模型實現機器狗,輪式機器人,無人機的跟隨
體系再升維
從「智能基座」到「模型矩陣」
NavFoM 不僅僅是一項技術突破,更是銀河通用具身大模型體系的重要基座。
以 NavFoM 的統一架構為基石,銀河通用針對不同的落地需求,訓練并發布了三個「身懷絕技」的應用模型:
TrackVLA++:其能力相對于TrackVLA顯著升級,能實現 30 分鐘以上穩定的長程自主跟隨,室內和室外均不在話下、并能適應多種更復雜路況和地形;
UrbanVLA:針對室外場景應用需求,和 第三方地圖軟件打通,可根據地圖指引,自主規劃最優路線并行至目的地,在街道、天橋、單元樓等各種環境中穿梭自如,堪稱機器人的「自動駕駛」,難度和復雜度較汽車「自動駕駛」更甚一籌;
MM-Nav:支持 360° 無死角厘米級純視覺避障,行業內首次突破躲避玻璃、細線等傳統方案難以解決的極限困難,商業應用的「長尾困難」也輕松應對。
它們共同構成了從室內到城市、從汽車到機器人再到無人機的完整具身智能導航體系,讓以導航大模型為驅動的具身智能機器人真正開始走向現實世界。
體系再再再升維
從「模型矩陣」到「規模化商業落地」
從單一任務模型到統一智能基座;以統一智能基座構建全棧模型矩陣;依托全棧模型矩陣實現規模化商業落地。
銀河通用正推動導航技術從「局部功能」進化為「智能基礎設施」,讓機器人真正具備「理解空間、適應變化、自主行走」的能力。
這種體系化模型能力,是未來具身智能大規模落地的關鍵。
從學習特定任務到理解通用知識,NavFoM 作為業內首個跨本體全域環視的導航基座大模型,第一次讓機器人擁有了類似人類的通用「方向感」——在陌生街區中找路、在人群中穿行、在復雜空間中預測障礙等等。
而本次 NavFoM 的發布也標志著銀河通用完成了從機器人導航從單一功能創新到智能基座建設的跨越,其將和銀河通用的操作基座大模型 GraspVLA、GroceryVLA 等一起支撐起銀河通用讓具身大模型機器人走進千家萬戶、服務千行百業的宏大商業理想。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.