網易首頁 > 網易號 > 正文申請入駐

清北聯合推出Motion Transfer，機器人從人類數據端到端學習技能

2025-11-05 16:07:54　來源: 機器之心Pro

北京舉報

分享至

本文的作者來自清華大學、北京大學、武漢大學和上海交通大學，主要作者為清華大學碩士生袁承博、武漢大學本科生周睿和北京大學博士生劉夢真，通訊作者為清華大學交叉信息研究院的高陽助理教授。

近期，Google DeepMind 發布新一代具身大模型 Gemini Robotics 1.5，其核心亮點之一便是被稱為 Motion Transfer Mechanism（MT）的端到端動作遷移算法 —— 無需重新訓練，即可把不同形態機器人的技能「搬」到自己身上。不過，官方技術報告對此僅一筆帶過，細節成謎。

正當業內還在揣摩 MT 的「廬山真面目」時，清華、北大等高校聯合團隊率先把同類思路推到更高維度：直接把「動作遷移」做到人類 VR 數據上！

更難得的是，他們第一時間放出完整技術報告、訓練代碼與權重，全部開源可復現。下面帶你快速拆解這項「人類→機器人」零樣本動作遷移新范式。

論文鏈接：https://arxiv.org/abs/2509.17759
項目鏈接：https://motiontrans.github.io/
代碼地址：https://github.com/michaelyuancb/motiontrans

什么是 MotionTrans 框架

MotionTrans：端到端、零樣本、多任務的遷移人類技能

該論文提出 MotionTrans—— 業界純端到端、人類→機器人的 Zero-shot RGB-to-Action 技能遷移框架，一舉打通「看人會」到「我會做」的最后一公里。

零樣本遷移：無需任何同任務機器人演示，僅靠人類佩戴 VR 采集的數據，機器人即可一次性學會倒水、拔插座、關電腦、收納等日常操作，實現真正的「眼會到手會」。
小樣本精進：在零樣本基礎上，再用極少量（約 5–20 條）機器人本體數據微調，即可把 13 種人類技能推至高成功率。
端到端且架構無關：整套算法為端到端，且與機器人模型架構完全解耦；作者已在 Diffusion Policy 與 VLA 兩大主流范式上「即插即用」，驗證零樣本遷移的通用性與可擴展性。

MotionTrans 算法是怎么實現的

MotionTrans算法框架概覽圖

MotionTrans 算法框架是一套簡單易用，方便擴展的系統。具體來說，團隊首先自研了基于 VR 設備的人類數據采集系統（已開源）。該系統支持便攜式的同時采集人類第一人稱視頻、頭部運動、腕部位姿和手部動作。

然后，團隊通過坐標系變換和手部重定向（Retargeting）等方法，將人類數據轉換為機器人格式。具體來說：

第一人稱視頻：人類數據與機器人數據都使用第一人稱視角來作為視覺感知。
相對腕部動作表征：為了進一步縮小人類動作與機器人動作之間的差距，團隊使用相對位腕部姿（Relative Pose）來作為腕部動作表征。
手部重定向：團隊使用 Dex-Retargeting 工具將人類手部動作轉換為機器手對應的關節運動。

除此之外，團隊還提出使用人類 - 機器人統一的動作歸一化（Unfied Action Normalization）以及賦權重的人類 - 機器人聯合訓練算法（Weighted Human-Robot CoTraining），來進一步實現人類向機器人技能遷移的效果。MotionTrans 是一套通用的端到端訓練框架。

因此，團隊選擇了最為主流的 Diffusion Policy 和 VLA 模型來作為模型架構。最后，團隊采集了一個大規模人類 - 機器人數據數據集，包含 3200 + 軌跡、15 個機器人任務、15 個 (與機器人任務不同的) 人類任務和超過 10 個真實生活場景。

MotionTrans Dataset：高多樣性的大規模人類-機器人數據集

零樣本表現：直接從人類數據學會若干技能

團隊首先評估零樣本遷移：直接把「人類集合」里的任務部署到機器人，對于這些任務，全程未采集過任何一條機器人演示。

結果顯式，在全部 13 個任務上，機器人模型的平均成功率可以達到 20 %，其中：Pick-and-Place 系列表現最佳，成功率可達 60% – 80%；VLA 模型在「關電腦」任務上更是拿下 100 % 一次性通關；其它更為困難的任務，如拔插座、開盒子、避障放置等也取得可觀的成功率。

除此之外，即便成功率為 0 的任務，MotionTrans 依舊學會了正確的動作方向與趨勢。以擦桌子為例，模型雖未能把抹布推到足夠遠，但已清晰輸出 “向前推” 的連續動作，驗證了框架在零機器人數據條件下能夠捕獲任務核心語義。

MotionTrans支持零樣本實現端到端的人類向機器人技能遷移

微調后表現：僅用少量機器人微調數據，精通 13 個新任務

在隨后的「小樣本微調」階段，團隊只給每個「人類原生」任務補采了 5 條機器人軌跡 ——短短幾分鐘的示教，便讓模型在 13 個任務上的平均成功率從 20% 的零樣本基線躍至約 50%；當把機器人軌跡增加到 20 條，平均成功率更是直達到 80%。

除此之外，實驗結果顯示，同時使用機器人數據和人類數據聯合訓練的 MotionTrans 方法要顯著優于對比的 Baseline 方法。

最后，團隊還實施了大量消融試驗和探索性實驗，來驗證 MotionTrans 框架設計的合理性，以及揭示 Motion Transfer 發生的底層原理與機制。

MotionTrans算法機器人數據微調效果曲線圖

總結：人類數據學習的全新視角

MotionTrans 首次向社區證明：即便是最前沿的端到端 VLA 模型，也能在「零機器人演示」的嚴苛設定下，僅憑人類 VR 數據就解鎖全新的技能。

這一結果改變了人們對人類數據的認知 —— 它不再只是提升魯棒性或加速收斂的「調味劑」，而是足以獨立充當「主菜」，讓機器人直接習得陌生任務。框架本身簡潔直白、模塊化設計，采、轉、訓三步即插即用，未來面對更大規模的數據集或參數量級的模型，只需橫向擴容即可適用。

最后，團隊開源了所有的數據、代碼和模型，為后續的相關研究提供支持。

更多細節請參閱原論文。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.