機器之心報道
編輯:冷貓、+0
入坑機器人的春天來了。
眾所周知,機器人學本質(zhì)上是一個多學科交叉的領域,自 20 世紀 60 年代誕生以來,已經(jīng)取得了前所未有的進步。
尤其是在大模型誕生,多模態(tài)大模型等人工智能技術蓬勃發(fā)展的當下,機器人領域與過去經(jīng)典機器人學產(chǎn)生了重大的變化,機器人學習成為了現(xiàn)代機器人學的中流砥柱。
隨著機器學習和多模態(tài)模型的迅速發(fā)展以及大規(guī)模機器人數(shù)據(jù)的拓展,機器人學習逐步轉(zhuǎn)向了基于學習的范式,強化學習、模仿學習,以及研究熱門的 VLA 模型,都正在為自主決策的機器人開辟全新的潛力。
值得慶幸的是,HuggingFace 與牛津大學的研究者們?yōu)橄胍M入現(xiàn)代機器人學習領域的新人們提供了了一份極其全面易懂的技術教程。
![]()
這份教程將帶領讀者探索現(xiàn)代機器人學習的全景,從強化學習和模仿學習的基礎原理出發(fā),逐步走向能夠在多種任務甚至不同機器人形態(tài)下運行的通用型、語言條件模型。
![]()
- 論文標題:Robot Learning: A Tutorial
- 論文鏈接:https://www.arxiv.org/abs/2510.12403v1
- Github 鏈接:https://github.com/huggingface/lerobot
- 模型和數(shù)據(jù)集鏈接:https://huggingface.co/lerobot
更良心的是,這份教程還額外附帶了機器人領域的基于 PyTorch 的開源數(shù)據(jù)集、模型、工具和代碼庫 LeRobot,收錄了許多當前的 SOTA 方法,這些方法已經(jīng)在模仿學習和強化學習方向上展示了良好的真實機器人遷移能力。
目前,LeRobot 已經(jīng)提供了一系列預訓練模型、包含人工采集示范的數(shù)據(jù)集,以及模擬環(huán)境,用戶無需搭建實體機器人就可以開始上手。
![]()
LeRobot 是由 Hugging Face 開發(fā)的開源端到端機器人庫。該庫在整個機器人棧上垂直整合,支持對真實世界機器人設備的低級控制、高級數(shù)據(jù)和推理優(yōu)化,以及具有純 Pytorch 簡單實現(xiàn)的 SOTA 機器人學習方法。
這份教程從經(jīng)典機器人學的概念開始,逐步介紹強化學習和模仿學習,生成模型的理念,以及通用機器人策略
「技多不壓身」,該教程是成為踏入機器人學習領域的一份有價值的起點。
我們將簡單介紹一下這份教程涉及的基本內(nèi)容:
經(jīng)典機器人學
![]()
從顯式建模到隱式建模的演化,標志著機器人運動生成方式的一次根本性變革。傳統(tǒng)機器人技術依賴顯式建模,通過正向運動學、逆向運動學以及基于控制的規(guī)劃來生成動作;而基于學習的方法則通過深度強化學習和專家示范學習,實現(xiàn)了隱式建模。
經(jīng)典的機器人系統(tǒng)通常遵循一個模塊化流水線:感知模塊處理原始傳感器數(shù)據(jù),狀態(tài)估計模塊確定機器人的當前狀態(tài),規(guī)劃模塊生成運動軌跡,控制模塊則負責執(zhí)行這些軌跡。
![]()
基于動力學的機器人方法存在多方面的局限:
- 系統(tǒng)中多個組件需要協(xié)同工作,導致集成過程復雜且容易出錯;
- 不同的傳感模態(tài)和任務往往需要定制化的數(shù)據(jù)處理流水線,降低了系統(tǒng)的可擴展性;
- 對物理現(xiàn)象的解析模型通常過于簡化,限制了真實環(huán)境中的性能表現(xiàn);
- 基于動力學的方法往往忽視了機器人數(shù)據(jù)在規(guī)模與可獲取性方面的增長趨勢。
綜合來看,這些限制促使人們探索基于學習的方法,這些方法能夠(1)更緊密地整合感知和控制,(2)在任務和本體之間進行適應,同時減少專家建模干預,以及(3)隨著更多機器人數(shù)據(jù)的可用性,在性能上擴展。
機器人(強化)學習
強化學習通過試錯法讓機器人自主學習最優(yōu)行為策略,在許多場景下展現(xiàn)了巨大潛力。
![]()
基于學習的機器人學通過訓練一個(1)統(tǒng)一的高層控制器,能夠直接處理(2)高維、非結(jié)構化的感知 - 運動信息,從而簡化從感知到動作的過程。學習過程(3)無需動力學模型,而是聚焦于交互數(shù)據(jù),并且(4)其效果與所用數(shù)據(jù)的規(guī)模呈經(jīng)驗性正相關。
然而,該教程也明確指出了其在現(xiàn)實世界中面臨的瓶頸:一是安全與效率問題,尤其是在訓練初期,機器人可能因探索性動作造成硬件損傷;二是高昂的試錯成本,尤其是在真實物理環(huán)境中。
為解決這些問題,教程介紹了一系列前沿技術,例如通過模擬器訓練來規(guī)避物理風險,并利用「域隨機化」技術來縮小模擬與現(xiàn)實之間的差距。
![]()
同一運動任務可在訓練階段于不同(仿真)域中執(zhí)行(以地形差異為例),從而提升對多樣化環(huán)境動態(tài)的魯棒性。
此外,教程還重點介紹了「離線到在線」(Offline-to-Online)強化學習框架,該框架利用預先收集的專家數(shù)據(jù)來引導學習過程,顯著提升了樣本效率和安全性。
其中,HIL-SERL(Human-in-the-Loop, Sample-Efficient Robot Reinforcement Learning)方法作為典型案例被詳細闡述,該方法通過在訓練中引入人類監(jiān)督和干預,使得機器人在短短 1-2 小時內(nèi)就能掌握復雜的真實世界操作任務,成功率接近 100%。
![]()
(A) HIL-SERL 通過借鑒 SAC、RLPD 和 SERL 的最新進展,實現(xiàn)了在現(xiàn)實世界中對高性能 RL 智能體的訓練。 (B) 在真實 SO-100 上進行 HIL-SERL 訓練過程中的人類干預示例。
機器人(模仿)學習
與強化學習不同,模仿學習為機器人提供了一條更為直接的學習路徑,即通過「行為克隆」來復現(xiàn)專家操作。教程指出,模仿學習的核心優(yōu)勢在于它完全規(guī)避了復雜的獎勵函數(shù)設計,并通過直接學習專家數(shù)據(jù)來確保訓練過程的安全性。
然而,簡單的行為克隆也面臨兩大挑戰(zhàn):一是「復合誤差」,即微小的預測偏差會在序貫決策中被放大;二是難以處理專家演示中的「多模態(tài)」行為,例如,同一個任務目標可以通過多種不同的有效動作序列完成。
教程詳細介紹了一系列基于生成模型的先進模仿學習方法。
例如,Action Chunking with Transformers (ACT) 和 Diffusion Policy 等技術,通過學習專家行為的潛在分布而非單一的映射函數(shù),來有效建模多模態(tài)數(shù)據(jù)。
![]()
ACT 中使用的 CVAE 編碼器。輸入的動作塊首先被嵌入并與位置嵌入聚合,然后與嵌入的本體感知信息以及一個用于聚合輸入層信息并預測風格變量 z 的可學習 [CLS] 標記一起處理。該編碼器僅用于訓練解碼器,在推理階段完全被忽略。
其中,Diffusion Policy 利用擴散模型生成動作序列,在模擬和真實世界的多種任務中表現(xiàn)出色,僅需 50-150 個演示(約 15-60 分鐘的遙操作數(shù)據(jù))即可完成訓練。
![]()
Diffusion Policy 架構。將 H_o 個歷史觀測堆疊作為外部條件,用于對一組 H_a 個動作進行去噪。條件注入在 U-Net 塊的每一層都執(zhí)行。Diffusion Policy 僅需 T = 10 步去噪即可獲得完整的動作塊。
此外,教程還探討了如何通過「異步推理」優(yōu)化模型部署,有效提升機器人在資源受限環(huán)境下的響應速度和計算效率。
![]()
異步推理。異步推理棧示意圖。注意,策略可以在遠程服務器上運行,可能配備 GPU。
通用機器人策略
在模仿學習的基礎上,教程進一步展望了機器人技術的未來:構建能夠跨任務、跨設備的「通用機器人策略」,即機器人領域的「基礎模型」。
這一方向的興起源于大規(guī)模開放機器人數(shù)據(jù)集(如 Open X-Embodiment)的出現(xiàn),以及強大的視覺 - 語言模型(VLM)的發(fā)展。
教程重點介紹了兩種前沿的 VLA 模型:π? 和 SmolVLA。這兩者均采用了混合專家(MoE)架構,將預訓練的 VLM 作為強大的「感知主干」,負責理解視覺和語言指令,再結(jié)合一個專門的「動作專家」來生成精確的機器人控制指令。
- π? 模型利用 Flow Matching 技術進行訓練,并基于包含超過 1000 萬個軌跡的大規(guī)模數(shù)據(jù)集進行預訓練,展現(xiàn)了強大的少樣本甚至零樣本泛化能力。
![]()
π0 架構。視覺與語言 token 被送入 VLM 主干,該主干被禁止關注機器人本體感知狀態(tài)與動作 token;后者轉(zhuǎn)而輸入架構內(nèi)一個更小的權重子集,稱為「動作專家」。該架構在 1000 萬 + 條軌跡上以 Flow Matching 訓練,數(shù)據(jù)來自封閉與公開數(shù)據(jù)集的混合。
- SmolVLA 則代表了另一個重要趨勢:模型的小型化和開源化。作為一個完全開源的項目,SmolVLA 在保證高性能的同時,參數(shù)量僅為 π?的約七分之一,內(nèi)存消耗降低了 6 倍,極大地降低了前沿機器人模型的應用門檻
![]()
SmolVLA 架構如 @shukorSmolVLAVisionLanguageActionModel2025 所示。它是一個緊湊的 MoE 模型,通過流匹配訓練對動作塊進行去噪。視覺與語言令牌輸入 VLM 主干,通過注意力機制與本體感知及動作令牌共享信息。注意力專家在 VLM 主干視覺特征上交替使用 SA 與 CA 層進一步條件化。SmolVLA 跳過部分計算并壓縮視覺令牌,內(nèi)存占用僅為 π? 的 1/7(4.5 億參數(shù) vs. π? 的 33 億)。
更多細節(jié)內(nèi)容,代碼示例等請參閱教程原文。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.