「不僅會想，還能準(zhǔn)確去做」VLA-R1把「推理+行動」帶進(jìn)真實世界

2025-10-27 19:12:41　來源: 機(jī)器之心Pro

北京舉報

分享至

在機(jī)器人與智能體領(lǐng)域，一個老大難問題是：當(dāng)你讓機(jī)器人 “把黃碗放進(jìn)白色空籃子” 或 “從微波爐里把牛奶取出來放到餐桌上” 時，它不僅要看懂環(huán)境，更要解釋指令、規(guī)劃路徑 / 可操作區(qū)域，并把這些推理落實為準(zhǔn)確的動作。目前，很多 VLA（Vision-Language-Action）模型仍傾向直接輸出動作，缺乏對可供性（affordance）與軌跡（trajectory）幾何關(guān)系的顯式推理，一旦遇到顏色相近、目標(biāo)重復(fù)或容器多選等場景，就容易出錯。VLA-R1 的目標(biāo)，不僅把 “會想” 這步補(bǔ)上，而且通過強(qiáng)化學(xué)習(xí)進(jìn)一步加強(qiáng)執(zhí)行動作的準(zhǔn)確性，讓機(jī)器人解釋清楚再去準(zhǔn)確執(zhí)行

VLA-R1 出場：它是什么？

論文標(biāo)題：VLA-R1: Enhancing Reasoning in Vision-Language-Action Models
文章鏈接：https://arxiv.org/abs/2510.01623
項目主頁：https://gigaai-research.github.io/VLA-R1/

一句話概括：VLA-R1 是一個 “先推理、后執(zhí)行” 的 VLA（視覺 - 語言 - 行動）基礎(chǔ)模型。它把鏈?zhǔn)剿季S（CoT）監(jiān)督可驗證獎勵的強(qiáng)化學(xué)習(xí)（RLVR，基于 GRPO）結(jié)合起來，同時優(yōu)化 “推理質(zhì)量” 和 “執(zhí)行正確性”。簡單說，就是讓模型既能把思考過程講明白，還能把動作做準(zhǔn)。

關(guān)鍵創(chuàng)新點

1）兩階段訓(xùn)練：SFT + RL（基于 GRPO）

先用顯式 CoT 監(jiān)督做有教師的指令微調(diào)（SFT），再用可驗證獎勵做后訓(xùn)練強(qiáng)化（GRPO）。后者通過組內(nèi)歸一化優(yōu)勢與 KL 約束，穩(wěn)定地把 “會想” 轉(zhuǎn)化為 “會做”。推理輸出采用固定結(jié)構(gòu)： + …，從而保證可讀、可查錯。

2）三類 “可驗證獎勵”（RLVR）直擊 “看準(zhǔn) + 走對 + 格式對”

空間對齊獎勵（GIoU）：即使預(yù)測框與真值不相交也能得到有效梯度，也能提供有效梯度，顯著加速區(qū)域?qū)R與學(xué)習(xí)穩(wěn)定性；
軌跡一致性獎勵（引入角度及段長比值的 Fréchet 距離（ALHF））：綜合位置、切向角度與段長尺度，懲罰 “軌跡形狀不對，彎曲不合理，段長突變” 的情況；
輸出格式獎勵：強(qiáng)制推理段與動作段結(jié)構(gòu)化輸出，減少 “答非所問”。

3）VLA-CoT 數(shù)據(jù)引擎與 VLA-CoT-13K 數(shù)據(jù)集

為讓模型 “學(xué)會按步驟思考”，作者用Qwen2.5-VL-72B自動生成可供性與軌跡兩類任務(wù)的結(jié)構(gòu)化 CoT，并在提示中固定四步范式，最終得到13K條與視覺 / 動作嚴(yán)格對齊的 CoT 標(biāo)注，用作 SFT 的高質(zhì)量監(jiān)督信號。

實驗速覽

VLA-R1 在四個層級進(jìn)行了系統(tǒng)評測：域內(nèi)（In-Domain）測試、域外（Out-of-Domain）測試、仿真平臺、真實機(jī)器人實驗。此外還做了有無 CoT，RL 的消融實驗以證明方法的有效性。

基準(zhǔn)集（In-Domain）

VLA-R1 的基準(zhǔn)集來自團(tuán)隊自建的VLA-CoT-13K數(shù)據(jù)引擎，共含約 1.3 萬條視覺 - 語言 - 行動樣本，任務(wù)涵蓋 “可供性識別（Affordance Detection）” 與 “軌跡規(guī)劃（Trajectory Generation）” 兩大類。場景以桌面和實驗室為主，光照均勻、背景簡潔，包含碗、杯、勺、筆、盒子、籃子等常見物體，每條數(shù)據(jù)都配有精確的區(qū)域標(biāo)注、軌跡點坐標(biāo)和配套的鏈?zhǔn)剿季S推理。

實驗結(jié)果

可供性 IoU，比強(qiáng)基線 ManipLVM-R1提升 17.78%
軌跡平均誤差（Avg），相對基線降 17.25%

域外集（Out-of-Domain）

為了檢驗?zāi)Ｐ偷姆夯c語義遷移能力，研究團(tuán)隊引入兩個全新測試集：UMD DatasetVAIT Dataset。UMD 提供豐富的家庭物體及其功能標(biāo)簽（如 graspable、containable 等），而 VAIT 著重考察視覺場景與自然語言指令的對應(yīng)關(guān)系。與基準(zhǔn)集相比，域外數(shù)據(jù)在物體類別、背景風(fēng)格、光照條件及語言結(jié)構(gòu)上均存在顯著差異，幾乎不存在訓(xùn)練重疊。

實驗結(jié)果

可供性 IoU，在 UMD 數(shù)據(jù)集上仍然保持領(lǐng)先。
軌跡平均誤差（Avg），在 VAIT 子集上展現(xiàn)穩(wěn)健泛化

真實機(jī)器人（4 個餐桌場景）

在 VLA-R1 的真實機(jī)器人實驗中，作者共設(shè)計了四個桌面場景（S1–S4），每個場景都針對不同的環(huán)境復(fù)雜度與視覺干擾進(jìn)行布置，用以驗證模型在真實視覺條件下的穩(wěn)健性與泛化性。S1 為彩色碗拾取與放置場景，主要測試模型在多種顏色相近物體下的目標(biāo)區(qū)分與空間定位能力；S2 為水果拾取場景，物體外觀相似且數(shù)量較多，用于考察模型在同類物體識別與實例辨析下的可供性推理；S3 為廚房復(fù)雜遮擋場景，實驗臺上布置微波爐等大型遮擋物，考查模型在部分可見與非均勻光照環(huán)境下的穩(wěn)健推理；S4 為混合雜亂場景，包含多類別、不同屬性的日常物體，模擬多目標(biāo)混放與多容器選擇的真實桌面環(huán)境。四個場景均采用相同的機(jī)械臂與相機(jī)系統(tǒng)，在隨機(jī)物體排列與任務(wù)順序下獨立進(jìn)行十次實驗，以評估模型在真實干擾條件中的整體穩(wěn)定性與任務(wù)一致性。

可供性感知 SR：62.5%；軌跡執(zhí)行 SR：75%。
顏色相近、遮擋、目標(biāo)擾動等干擾下，VLA-R1 仍能給出空間一致、接近目標(biāo)的預(yù)測。

仿真（Piper / UR5，測試跨機(jī)器人平臺通用性）

為測試跨平臺通用性，VLA-R1 被部署到兩種機(jī)械臂仿真環(huán)境：輕量級的 Piper 與工業(yè)級的 UR5。仿真任務(wù)涵蓋多種隨機(jī)物體與動作指令。

可供性 SR：60% / 50%；軌跡 SR：80% / 60%，
跨機(jī)器人維持較好成功率，顯示出跨平臺泛化潛力。

消融實驗

為了測試 CoT，RL 的有效性，論文分別進(jìn)行了直接輸出軌跡，只用 CoT，以及 CoT+RL 后訓(xùn)練三種實驗的對比

只用 CoT（無 RL）：IoU 從 23.74 → 28.37，軌跡誤差也小幅下降；
CoT + RL：進(jìn)一步把 IoU 拉到 36.51，軌跡各項顯著改進(jìn)，說明 “先學(xué)會想，再用獎勵把想法煉成動作” 是有效路徑。

Demo 展示

思考過程展示

真機(jī)平臺

仿真平臺

應(yīng)用前景

家居拾放 / 收納等日常操控：面向客廳 / 廚房 / 書桌等開放環(huán)境，VLA-R1 可在多物體、光照不均、紋理干擾與部分遮擋下穩(wěn)定完成 “找 — 拿 — 放” 的閉環(huán)。它先用顯式推理消解 “相似目標(biāo) / 相近顏色 / 多個容器可選” 等歧義，再輸出可供性區(qū)域與可執(zhí)行軌跡，最終由低層控制棧完成抓取與放置。典型場景包括：將勺子→碗、筆→白盒、香蕉→籃子的收納，或在反光桌面、雜物堆疊的桌面上進(jìn)行安全、可解釋的物品整理。

倉揀 / 輕工裝配：在料箱揀選、工位配盤、工裝上料等流程中，VLA-R1 把 “部件 — 工具 — 容器 / 工位” 的三元關(guān)系明確寫在推理里（如 “為何選擇該容器 / 該姿態(tài) / 該路徑”），再生成滿足安全距離與路徑順滑度的軌跡，減少誤抓與誤放。它對重復(fù)件、套件、易混部件尤其有效：可在同批次零件中依據(jù)形狀 / 位置 / 容器容量做出解釋性選擇；同時結(jié)構(gòu)化輸出便于與 MES/PLC/ 視覺檢測系統(tǒng)對接，形成可追溯的產(chǎn)線閉環(huán)。

教學(xué) / 評測平臺：VLA-R1 的 < think>…+… 格式天然適合教學(xué)演示與自動化評分：教師 / 研究者能直接檢查 “任務(wù)解析、場景理解、可供性定位、可行性校驗、軌跡邏輯” 等中間步驟是否合理。配合標(biāo)準(zhǔn)化的 IoU/Fréchet / 成功率等指標(biāo)，可將其用作課程與競賽的基線模型，學(xué)生只需替換數(shù)據(jù)或模塊，即可對比 “僅 SFT”“SFT+RL”“不同獎勵 / 不同數(shù)據(jù)引擎” 的差異，快速定位問題與量化改進(jìn)效果。

作者介紹

葉安根是中國科學(xué)院自動化研究所模式識別與智能系統(tǒng)方向的在讀博士，研究方向聚焦于強(qiáng)化學(xué)習(xí)、機(jī)器人操作、具身智能。曾參與多項科研項目，致力于通過強(qiáng)化學(xué)習(xí)構(gòu)建少樣本、多任務(wù)的通用機(jī)器人系統(tǒng)。

張澤宇是 Richard Hartley 教授和 Ian Reid 教授指導(dǎo)的本科研究員。他的研究興趣扎根于計算機(jī)視覺領(lǐng)域，專注于探索幾何生成建模與前沿基礎(chǔ)模型之間的潛在聯(lián)系。張澤宇在多個研究領(lǐng)域擁有豐富的經(jīng)驗，積極探索人工智能基礎(chǔ)和應(yīng)用領(lǐng)域的前沿進(jìn)展。

通訊作者朱政，極佳科技聯(lián)合創(chuàng)始人、首席科學(xué)家，2019 年博士畢業(yè)于中國科學(xué)院自動化研究所；2019 年至 2021 年在清華大學(xué)自動化系從事博士后研究。在 TPAMI、 CVPR、ICCV、 ECCV、NeurIPS 等頂級期刊和會議上發(fā)表論文 70 余篇，文章總引用 16000 余次 (Google Citations)，連續(xù) 4 年入選全球前 2% 頂尖科學(xué)家榜單。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.