![]()
本文的作者來自清華大學、北京大學、武漢大學和上海交通大學,主要作者為清華大學碩士生袁承博、武漢大學本科生周睿和北京大學博士生劉夢真,通訊作者為清華大學交叉信息研究院的高陽助理教授。
近期,Google DeepMind 發布新一代具身大模型 Gemini Robotics 1.5,其核心亮點之一便是被稱為 Motion Transfer Mechanism(MT)的端到端動作遷移算法 —— 無需重新訓練,即可把不同形態機器人的技能「搬」到自己身上。不過,官方技術報告對此僅一筆帶過,細節成謎。
正當業內還在揣摩 MT 的「廬山真面目」時,清華、北大等高校聯合團隊率先把同類思路推到更高維度:直接把「動作遷移」做到人類 VR 數據上!
更難得的是,他們第一時間放出完整技術報告、訓練代碼與權重,全部開源可復現。下面帶你快速拆解這項「人類→機器人」零樣本動作遷移新范式。
![]()
- 論文鏈接:https://arxiv.org/abs/2509.17759
- 項目鏈接:https://motiontrans.github.io/
- 代碼地址:https://github.com/michaelyuancb/motiontrans
什么是 MotionTrans 框架
![]()
MotionTrans:端到端、零樣本、多任務的遷移人類技能
該論文提出 MotionTrans—— 業界純端到端、人類→機器人的 Zero-shot RGB-to-Action 技能遷移框架,一舉打通「看人會」到「我會做」的最后一公里。
- 零樣本遷移:無需任何同任務機器人演示,僅靠人類佩戴 VR 采集的 數據,機器人即可一次性學會倒水、拔插座、關電腦、收納等日常操作,實現真正的「眼會到手會」。
- 小樣本精進:在零樣本基礎上,再用極少量(約 5–20 條)機器人本體數據微調,即可把 13 種人類技能推至高成功率。
- 端到端且架構無關:整套算法為端到端,且與機器人模型架構完全解耦;作者已在 Diffusion Policy 與 VLA 兩大主流范式上「即插即用」,驗證零樣本遷移的通用性與可擴展性。
MotionTrans 算法是怎么實現的
![]()
MotionTrans算法框架概覽圖
MotionTrans 算法框架是一套簡單易用,方便擴展的系統。具體來說,團隊首先自研了基于 VR 設備的人類數據采集系統(已開源)。該系統支持便攜式的同時采集人類第一人稱視頻、頭部運動、腕部位姿和手部動作。
然后,團隊通過坐標系變換和手部重定向(Retargeting)等方法,將人類數據轉換為機器人格式。具體來說:
- 第一人稱視頻:人類數據與機器人數據都使用第一人稱視角來作為視覺感知。
- 相對腕部動作表征:為了進一步縮小人類動作與機器人動作之間的差距,團隊使用相對位腕部姿(Relative Pose)來作為腕部動作表征。
- 手部重定向:團隊使用 Dex-Retargeting 工具將人類手部動作轉換為機器手對應的關節運動。
除此之外,團隊還提出使用人類 - 機器人統一的動作歸一化(Unfied Action Normalization)以及賦權重的人類 - 機器人聯合訓練算法(Weighted Human-Robot CoTraining),來進一步實現人類向機器人技能遷移的效果。MotionTrans 是一套通用的端到端訓練框架。
因此,團隊選擇了最為主流的 Diffusion Policy 和 VLA 模型來作為模型架構。最后,團隊采集了一個大規模人類 - 機器人數據數據集,包含 3200 + 軌跡、15 個機器人任務、15 個 (與機器人任務不同的) 人類任務和超過 10 個真實生活場景。
![]()
MotionTrans Dataset:高多樣性的大規模人類-機器人數據集
零樣本表現:直接從人類數據學會若干技能
團隊首先評估零樣本遷移:直接把「人類集合」里的任務部署到機器人,對于這些任務,全程未采集過任何一條機器人演示。
結果顯式,在全部 13 個任務上,機器人模型的平均成功率可以達到 20 %,其中:Pick-and-Place 系列表現最佳,成功率可達 60% – 80%;VLA 模型在 「關電腦」任務上更是拿下 100 % 一次性通關;其它更為困難的任務,如拔插座、開盒子、避障放置等也取得可觀的成功率。
除此之外,即便成功率為 0 的任務,MotionTrans 依舊學會了正確的動作方向與趨勢。以擦桌子為例,模型雖未能把抹布推到足夠遠,但已清晰輸出 “向前推” 的連續動作,驗證了框架在零機器人數據條件下能夠捕獲任務核心語義。
![]()
MotionTrans支持零樣本實現端到端的人類向機器人技能遷移
微調后表現:僅用少量機器人微調數據,精通 13 個新任務
在隨后的「小樣本微調」階段,團隊只給每個「人類原生」任務補采了 5 條機器人軌跡 ——短短幾分鐘的示教,便讓模型在 13 個任務上的平均成功率從 20% 的零樣本基線躍至約 50%;當把機器人軌跡增加到 20 條,平均成功率更是直達到 80%。
除此之外,實驗結果顯示,同時使用機器人數據和人類數據聯合訓練的 MotionTrans 方法要顯著優于對比的 Baseline 方法。
最后,團隊還實施了大量消融試驗和探索性實驗,來驗證 MotionTrans 框架設計的合理性,以及揭示 Motion Transfer 發生的底層原理與機制。
![]()
MotionTrans算法機器人數據微調效果曲線圖
總結:人類數據學習的全新視角
MotionTrans 首次向社區證明:即便是最前沿的端到端 VLA 模型,也能在「零機器人演示」的嚴苛設定下,僅憑人類 VR 數據就解鎖全新的技能。
這一結果改變了人們對人類數據的認知 —— 它不再只是提升魯棒性或加速收斂的 「調味劑」,而是足以獨立充當「主菜」,讓機器人直接習得陌生任務。框架本身簡潔直白、模塊化設計,采、轉、訓三步即插即用,未來面對更大規模的數據集或參數量級的模型,只需橫向擴容即可適用。
最后,團隊開源了所有的數據、代碼和模型,為后續的相關研究提供支持。
更多細節請參閱原論文。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.