<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      「不僅會想,還能準(zhǔn)確去做」VLA-R1把「推理+行動」帶進(jìn)真實世界

      0
      分享至





      在機(jī)器人與智能體領(lǐng)域,一個老大難問題是:當(dāng)你讓機(jī)器人 “把黃碗放進(jìn)白色空籃子” 或 “從微波爐里把牛奶取出來放到餐桌上” 時,它不僅要看懂環(huán)境,更要解釋指令、規(guī)劃路徑 / 可操作區(qū)域,并把這些推理落實為準(zhǔn)確的動作。目前,很多 VLA(Vision-Language-Action)模型仍傾向直接輸出動作,缺乏對可供性(affordance)與軌跡(trajectory)幾何關(guān)系的顯式推理,一旦遇到顏色相近、目標(biāo)重復(fù)或容器多選等場景,就容易出錯。VLA-R1 的目標(biāo),不僅把 “會想” 這步補(bǔ)上,而且通過強(qiáng)化學(xué)習(xí)進(jìn)一步加強(qiáng)執(zhí)行動作的準(zhǔn)確性,讓機(jī)器人解釋清楚再去準(zhǔn)確執(zhí)行

      VLA-R1 出場:它是什么?



      • 論文標(biāo)題:VLA-R1: Enhancing Reasoning in Vision-Language-Action Models
      • 文章鏈接:https://arxiv.org/abs/2510.01623
      • 項目主頁:https://gigaai-research.github.io/VLA-R1/

      一句話概括:VLA-R1 是一個 “先推理、后執(zhí)行” 的 VLA(視覺 - 語言 - 行動)基礎(chǔ)模型。它把鏈?zhǔn)剿季S(CoT)監(jiān)督可驗證獎勵的強(qiáng)化學(xué)習(xí)(RLVR,基于 GRPO)結(jié)合起來,同時優(yōu)化 “推理質(zhì)量” 和 “執(zhí)行正確性”。簡單說,就是讓模型既能把思考過程講明白,還能把動作做準(zhǔn)。

      關(guān)鍵創(chuàng)新點

      1)兩階段訓(xùn)練:SFT + RL(基于 GRPO)



      先用顯式 CoT 監(jiān)督做有教師的指令微調(diào)(SFT),再用可驗證獎勵做后訓(xùn)練強(qiáng)化(GRPO)。后者通過組內(nèi)歸一化優(yōu)勢與 KL 約束,穩(wěn)定地把 “會想” 轉(zhuǎn)化為 “會做”。推理輸出采用固定結(jié)構(gòu): + …,從而保證可讀、可查錯。

      2)三類 “可驗證獎勵”(RLVR)直擊 “看準(zhǔn) + 走對 + 格式對”

      • 空間對齊獎勵(GIoU):即使預(yù)測框與真值不相交也能得到有效梯度,也能提供有效梯度,顯著加速區(qū)域?qū)R與學(xué)習(xí)穩(wěn)定性;
      • 軌跡一致性獎勵(引入角度及段長比值的 Fréchet 距離(ALHF)):綜合位置、切向角度與段長尺度,懲罰 “軌跡形狀不對,彎曲不合理,段長突變” 的情況;
      • 輸出格式獎勵:強(qiáng)制推理段與動作段結(jié)構(gòu)化輸出,減少 “答非所問”。



      3)VLA-CoT 數(shù)據(jù)引擎與 VLA-CoT-13K 數(shù)據(jù)集

      為讓模型 “學(xué)會按步驟思考”,作者用Qwen2.5-VL-72B自動生成可供性與軌跡兩類任務(wù)的結(jié)構(gòu)化 CoT,并在提示中固定四步范式,最終得到13K條與視覺 / 動作嚴(yán)格對齊的 CoT 標(biāo)注,用作 SFT 的高質(zhì)量監(jiān)督信號。





      實驗速覽

      VLA-R1 在四個層級進(jìn)行了系統(tǒng)評測:域內(nèi)(In-Domain)測試、域外(Out-of-Domain)測試、仿真平臺、真實機(jī)器人實驗。此外還做了有無 CoT,RL 的消融實驗以證明方法的有效性。



      基準(zhǔn)集(In-Domain)

      VLA-R1 的基準(zhǔn)集來自團(tuán)隊自建的VLA-CoT-13K數(shù)據(jù)引擎,共含約 1.3 萬條視覺 - 語言 - 行動樣本,任務(wù)涵蓋 “可供性識別(Affordance Detection)” 與 “軌跡規(guī)劃(Trajectory Generation)” 兩大類。場景以桌面和實驗室為主,光照均勻、背景簡潔,包含碗、杯、勺、筆、盒子、籃子等常見物體,每條數(shù)據(jù)都配有精確的區(qū)域標(biāo)注、軌跡點坐標(biāo)和配套的鏈?zhǔn)剿季S推理。

      實驗結(jié)果

      • 可供性 IoU,比強(qiáng)基線 ManipLVM-R1提升 17.78%
      • 軌跡平均誤差(Avg),相對基線降 17.25%

      域外集(Out-of-Domain)

      為了檢驗?zāi)P偷姆夯c語義遷移能力,研究團(tuán)隊引入兩個全新測試集:UMD DatasetVAIT Dataset。UMD 提供豐富的家庭物體及其功能標(biāo)簽(如 graspable、containable 等),而 VAIT 著重考察視覺場景與自然語言指令的對應(yīng)關(guān)系。與基準(zhǔn)集相比,域外數(shù)據(jù)在物體類別、背景風(fēng)格、光照條件及語言結(jié)構(gòu)上均存在顯著差異,幾乎不存在訓(xùn)練重疊。

      實驗結(jié)果

      • 可供性 IoU,在 UMD 數(shù)據(jù)集上仍然保持領(lǐng)先。
      • 軌跡平均誤差(Avg),在 VAIT 子集上展現(xiàn)穩(wěn)健泛化

      真實機(jī)器人(4 個餐桌場景)

      在 VLA-R1 的真實機(jī)器人實驗中,作者共設(shè)計了四個桌面場景(S1–S4),每個場景都針對不同的環(huán)境復(fù)雜度與視覺干擾進(jìn)行布置,用以驗證模型在真實視覺條件下的穩(wěn)健性與泛化性。S1 為彩色碗拾取與放置場景,主要測試模型在多種顏色相近物體下的目標(biāo)區(qū)分與空間定位能力;S2 為水果拾取場景,物體外觀相似且數(shù)量較多,用于考察模型在同類物體識別與實例辨析下的可供性推理;S3 為廚房復(fù)雜遮擋場景,實驗臺上布置微波爐等大型遮擋物,考查模型在部分可見與非均勻光照環(huán)境下的穩(wěn)健推理;S4 為混合雜亂場景,包含多類別、不同屬性的日常物體,模擬多目標(biāo)混放與多容器選擇的真實桌面環(huán)境。四個場景均采用相同的機(jī)械臂與相機(jī)系統(tǒng),在隨機(jī)物體排列與任務(wù)順序下獨立進(jìn)行十次實驗,以評估模型在真實干擾條件中的整體穩(wěn)定性與任務(wù)一致性。





      • 可供性感知 SR:62.5%;軌跡執(zhí)行 SR:75%。
      • 顏色相近、遮擋、目標(biāo)擾動等干擾下,VLA-R1 仍能給出空間一致、接近目標(biāo)的預(yù)測。

      仿真(Piper / UR5,測試跨機(jī)器人平臺通用性)

      為測試跨平臺通用性,VLA-R1 被部署到兩種機(jī)械臂仿真環(huán)境:輕量級的 Piper 與工業(yè)級的 UR5。仿真任務(wù)涵蓋多種隨機(jī)物體與動作指令。





      • 可供性 SR:60% / 50%;軌跡 SR:80% / 60%,
      • 跨機(jī)器人維持較好成功率,顯示出跨平臺泛化潛力。

      消融實驗

      為了測試 CoT,RL 的有效性,論文分別進(jìn)行了直接輸出軌跡,只用 CoT,以及 CoT+RL 后訓(xùn)練三種實驗的對比



      • 只用 CoT(無 RL):IoU 從 23.74 → 28.37,軌跡誤差也小幅下降;
      • CoT + RL:進(jìn)一步把 IoU 拉到 36.51,軌跡各項顯著改進(jìn),說明 “先學(xué)會想,再用獎勵把想法煉成動作” 是有效路徑。

      Demo 展示

      思考過程展示



      真機(jī)平臺





      仿真平臺



      應(yīng)用前景

      家居拾放 / 收納等日常操控:面向客廳 / 廚房 / 書桌等開放環(huán)境,VLA-R1 可在多物體、光照不均、紋理干擾與部分遮擋下穩(wěn)定完成 “找 — 拿 — 放” 的閉環(huán)。它先用顯式推理消解 “相似目標(biāo) / 相近顏色 / 多個容器可選” 等歧義,再輸出可供性區(qū)域與可執(zhí)行軌跡,最終由低層控制棧完成抓取與放置。典型場景包括:將勺子→碗、筆→白盒、香蕉→籃子的收納,或在反光桌面、雜物堆疊的桌面上進(jìn)行安全、可解釋的物品整理。

      倉揀 / 輕工裝配:在料箱揀選、工位配盤、工裝上料等流程中,VLA-R1 把 “部件 — 工具 — 容器 / 工位” 的三元關(guān)系明確寫在推理里(如 “為何選擇該容器 / 該姿態(tài) / 該路徑”),再生成滿足安全距離與路徑順滑度的軌跡,減少誤抓與誤放。它對重復(fù)件、套件、易混部件尤其有效:可在同批次零件中依據(jù)形狀 / 位置 / 容器容量做出解釋性選擇;同時結(jié)構(gòu)化輸出便于與 MES/PLC/ 視覺檢測系統(tǒng)對接,形成可追溯的產(chǎn)線閉環(huán)。

      教學(xué) / 評測平臺:VLA-R1 的 < think>…+… 格式天然適合教學(xué)演示與自動化評分:教師 / 研究者能直接檢查 “任務(wù)解析、場景理解、可供性定位、可行性校驗、軌跡邏輯” 等中間步驟是否合理。配合標(biāo)準(zhǔn)化的 IoU/Fréchet / 成功率等指標(biāo),可將其用作課程與競賽的基線模型,學(xué)生只需替換數(shù)據(jù)或模塊,即可對比 “僅 SFT”“SFT+RL”“不同獎勵 / 不同數(shù)據(jù)引擎” 的差異,快速定位問題與量化改進(jìn)效果。

      作者介紹

      葉安根是中國科學(xué)院自動化研究所模式識別與智能系統(tǒng)方向的在讀博士,研究方向聚焦于強(qiáng)化學(xué)習(xí)、機(jī)器人操作、具身智能。曾參與多項科研項目,致力于通過強(qiáng)化學(xué)習(xí)構(gòu)建少樣本、多任務(wù)的通用機(jī)器人系統(tǒng)。

      張澤宇是 Richard Hartley 教授和 Ian Reid 教授指導(dǎo)的本科研究員。他的研究興趣扎根于計算機(jī)視覺領(lǐng)域,專注于探索幾何生成建模與前沿基礎(chǔ)模型之間的潛在聯(lián)系。張澤宇在多個研究領(lǐng)域擁有豐富的經(jīng)驗,積極探索人工智能基礎(chǔ)和應(yīng)用領(lǐng)域的前沿進(jìn)展。

      通訊作者朱政,極佳科技聯(lián)合創(chuàng)始人、首席科學(xué)家,2019 年博士畢業(yè)于中國科學(xué)院自動化研究所;2019 年至 2021 年在清華大學(xué)自動化系從事博士后研究。在 TPAMI、 CVPR、ICCV、 ECCV、NeurIPS 等頂級期刊和會議上發(fā)表論文 70 余篇,文章總引用 16000 余次 (Google Citations),連續(xù) 4 年入選全球前 2% 頂尖科學(xué)家榜單。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      97年未婚妻特招入伍要求解除婚約,我升任參謀長,15年與她再次相遇

      97年未婚妻特招入伍要求解除婚約,我升任參謀長,15年與她再次相遇

      溫情郵局
      2025-10-27 14:45:28
      太子終于熬到皇帝駕崩,在登基大典上磕完頭,才知道自己不是新帝

      太子終于熬到皇帝駕崩,在登基大典上磕完頭,才知道自己不是新帝

      掠影后有感
      2025-11-05 09:32:03
      “新疆棉”事件5年后,那個丑態(tài)百出的“反華妖女”,如今怎樣了

      “新疆棉”事件5年后,那個丑態(tài)百出的“反華妖女”,如今怎樣了

      博覽歷史
      2025-09-10 20:25:07
      安世荷蘭想靠斷供晶圓拿捏中國?中企接棒,直接無縫銜接!

      安世荷蘭想靠斷供晶圓拿捏中國?中企接棒,直接無縫銜接!

      胖福的小木屋
      2025-11-05 17:10:14
      中山博愛路、北外環(huán)超速罰千元扣12分?車主直呼不敢踩油門!

      中山博愛路、北外環(huán)超速罰千元扣12分?車主直呼不敢踩油門!

      中山印象體育攝影師
      2025-11-05 12:00:05
      吳尊14歲女兒neinei真是妥妥的大美女,都是高顏值,幸福極了!

      吳尊14歲女兒neinei真是妥妥的大美女,都是高顏值,幸福極了!

      科學(xué)發(fā)掘
      2025-11-05 11:37:29
      75歲資深藝人甘國亮疑患失智癥被送院,好友證實其身體欠佳

      75歲資深藝人甘國亮疑患失智癥被送院,好友證實其身體欠佳

      娛樂官已上任
      2025-11-05 08:15:31
      強(qiáng)悍的歐爾班扛不動了?執(zhí)掌匈牙利近二十年,民心散了、路也窄了

      強(qiáng)悍的歐爾班扛不動了?執(zhí)掌匈牙利近二十年,民心散了、路也窄了

      形上謂道
      2025-11-05 15:16:48
      江蘇省委常委、 組織部部長劉建洋:提高在對外開放條件下想問題抓工作的本領(lǐng)

      江蘇省委常委、 組織部部長劉建洋:提高在對外開放條件下想問題抓工作的本領(lǐng)

      無錫發(fā)布
      2025-11-05 11:53:54
      上海一醫(yī)生因服務(wù)病人太多,被刑拘!

      上海一醫(yī)生因服務(wù)病人太多,被刑拘!

      花小貓的美食日常
      2025-11-05 09:34:01
      山西王閻錫山的妹妹,沒來得及跟哥哥逃到臺灣,她的結(jié)局如何?

      山西王閻錫山的妹妹,沒來得及跟哥哥逃到臺灣,她的結(jié)局如何?

      鶴羽說個事
      2025-11-04 16:56:07
      出差2個月把家中地暖斷掉,樓上卻在群里罵我,她家樓上也斷掉地暖

      出差2個月把家中地暖斷掉,樓上卻在群里罵我,她家樓上也斷掉地暖

      懸案解密檔案
      2025-11-03 10:32:45
      “不孝之人罪逆天”!臺網(wǎng)紅“館長”幫賴清德尋根,宗親喊話

      “不孝之人罪逆天”!臺網(wǎng)紅“館長”幫賴清德尋根,宗親喊話

      海峽導(dǎo)報社
      2025-11-04 07:23:03
      走好不送!鄭智化清空微博,陳震道歉,央媒三連問直戳人們心窩子

      走好不送!鄭智化清空微博,陳震道歉,央媒三連問直戳人們心窩子

      李侽在北漂
      2025-11-05 16:04:38
      第一次感受到維C“殺傷力”,2塊錢解決這么多麻煩事,簡直無敵了

      第一次感受到維C“殺傷力”,2塊錢解決這么多麻煩事,簡直無敵了

      Home范
      2025-09-30 13:30:13
      北京最大山姆本月開業(yè)?施工圍墻已拆除

      北京最大山姆本月開業(yè)?施工圍墻已拆除

      大峰
      2025-11-05 10:20:34
      中投命中率第1!湖人化身中投豪強(qiáng):四大高手崛起,沖冠更有戲?

      中投命中率第1!湖人化身中投豪強(qiáng):四大高手崛起,沖冠更有戲?

      李喜林籃球絕殺
      2025-11-05 17:11:34
      納瓦爾回顧比爾蓋茨做空特斯拉:馬斯克是個純粹主義者!網(wǎng)友:有仇必報

      納瓦爾回顧比爾蓋茨做空特斯拉:馬斯克是個純粹主義者!網(wǎng)友:有仇必報

      大白聊IT
      2025-11-05 12:26:24
      5-0!2-0!日本韓國朝鮮閃耀世界杯:首戰(zhàn)全贏,中國男足早被淘汰

      5-0!2-0!日本韓國朝鮮閃耀世界杯:首戰(zhàn)全贏,中國男足早被淘汰

      侃球熊弟
      2025-11-05 03:55:29
      起底千億殺豬盤大亨:曾投拍反詐電影,給藝人女友每月千萬零花

      起底千億殺豬盤大亨:曾投拍反詐電影,給藝人女友每月千萬零花

      文娛春秋Plus
      2025-11-03 09:26:25
      2025-11-05 17:51:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      11655文章數(shù) 142498關(guān)注度
      往期回顧 全部

      科技要聞

      大轉(zhuǎn)彎!特朗普再提名馬斯克盟友任NASA局長

      頭條要聞

      足球報:邵佳一出任國足新帥 將攜外籍助教上任

      頭條要聞

      足球報:邵佳一出任國足新帥 將攜外籍助教上任

      體育要聞

      贏下皇馬,會是利物浦的轉(zhuǎn)折點嗎?

      娛樂要聞

      港星林尚武突發(fā)心臟病去世

      財經(jīng)要聞

      中方官宣!對美關(guān)稅,調(diào)整!

      汽車要聞

      智己LS9入局"9系"混戰(zhàn) 全尺寸SUV市場迎來新變量

      態(tài)度原創(chuàng)

      家居
      手機(jī)
      游戲
      公開課
      軍事航空

      家居要聞

      別樣府院 暢享詩意生活

      手機(jī)要聞

      小米REDMI Turbo 5 Pro曝光:9000mAh大電池+超聲波指紋

      知名游戲新作Steam國區(qū)好評率僅4%!玩家噴爆了

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美國“福特”號航母駛往加勒比海

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 国产精品一区二区三区日韩| 亚洲av二区三区在线| 尚义县| 国产精品一区二区三区自拍| 祁东县| 久女女热精品视频在线观看| 久久久久无码精品国产h动漫| 亚洲人成网站18禁止无码| 好深好湿好硬顶到了好爽| 国产老熟女国语免费视频| 国产成人精品亚洲资源| 99久久精品午夜一区二区| 毛片在线看免费| 国产成人午夜精品福利| 色老99久久九九爱精品| 性色av无码久久一区二区三区| 成人伊人青草久久综合网| 高潮迭起av乳颜射后入| 国产精品白丝久久av网站| 宜都市| 亚洲日韩久热中文字幕| 亚洲AV日韩AV激情亚洲 | 国产91丝袜在线播放动漫| 亚洲精品美女一区二区| 国产成人8X人网站视频| 酒泉市| 亚洲中文久久久精品无码| 欧美va亚洲va在线观看| 国产精品亚洲精品日韩已满十八小 | 久久人与动人物a级毛片| 日韩有码中文字幕国产| 日韩一区二区三区av在线| 亚洲精品揄拍自拍首页一| 伊人久久精品久久亚洲一区| 欧美国产精品啪啪| 亚洲免费观看视频| 国产精品一区二区传媒蜜臀| 99热精品毛片全部国产无缓冲| 免费无码成人AV在线播放不卡| 好吊视频在线一区二区三区| 黑人巨大精品欧美一区二区|