<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      RLinf上新πRL:在線強化學習微調π0和π0.5

      0
      分享至



      近年來,基于流匹配的VLA 模型,特別是 Physical Intelligence 發布的π0和π0.5,已經成為機器人領域備受關注的前沿技術路線。流匹配以極簡方式建模多峰分布,能夠生成高維且平滑的連續動作序列,在應對復雜操控任務時展現出顯著優勢。

      盡管如此,VLA 模型在訓練過程中嚴重依賴于大規模、高質量的人類演示數據,而收集和標注這些數據的成本高昂且周期漫長。強化學習允許智能體通過與環境的真實交互自行探索和迭代改進,可以減少VLA 模型對大量數據的依賴,并進一步提升SFT 的性能上限。

      目前,針對流匹配VLA 的 RL研究仍較少,主流工作大多集中在OpenVLA 和 OpenVLA-OFT等自回歸VLA上。其核心挑戰在于:流匹配VLA 通過迭代去噪生成動作,導致難以直接計算輸出動作的對數似然——而這是PPO、GRPO 等策略梯度方法更新的關鍵。

      清華、北大、CMU 等機構聯合推出了一套面向流匹配 VLA(π0,π0.5)的在線強化學習(PPO 和 GRPO)微調框架πRL。該框架基于 RLinf(首個面向具身智能的大規模強化學習系統)實現,提出Flow-Noise 和 Flow-SDE兩種微調方案,在公開測試平臺LIBERO 達到平均 97.6% (π0) 和 98.3% (π0.5),驗證了微調方案的有效性。

      進一步,πRL在涵蓋4,352 種抓取-放置任務組合中進行訓練,成功率漲幅40% 以上,最終成功率超 80%,驗證了框架支持大規模任務訓練的能力。目前,全部代碼、模型和文檔示例已完全開源。



      • 論文鏈接: https://arxiv.org/pdf/2510.25889
      • 開源代碼: https://github.com/RLinf/RLinf
      • 模型倉庫: https://huggingface.co/RLinf
      • 復現文檔:https://rlinf.readthedocs.io/en/latest/rst_source/examples/pi0.html



      圖 1:本框架分別支持 π0和 π0.5兩個模型,并提出了Flow-Noise 和 Flow-SDE兩種技術方案,在LIBERO 和 ManiSkill測試平臺上分別實現了最高40.0% 和 44.7%的增幅。

      πRL 核心原理

      針對流匹配VLA 難以直接計算輸出動作對數似然問題,πRL提出了兩條技術路線:Flow-Noise 和 Flow-SDE。



      圖 2:Flow-Noise 通過將去噪過程建模為離散馬爾可夫過程,能夠直接計算去噪序列的聯合概率密度;Flow-SDE 則將去噪與環境交互過程相結合,構建了雙層 MDP。策略在 rollout 階段收集完數據后,統一采用 PPO 進行策略梯度優化。

      Flow-Noise

      • 注入可學習噪聲:引入一個可學習的噪聲網絡,在去噪每一步均加入噪聲,使去噪過程變為隨機過程。
      • 計算聯合概率:由于每一步噪聲均可知(由噪聲網絡輸出),整個去噪序列(從初始噪聲至最終動作)的聯合對數似然可精確計算。
      • 策略梯度優化:基于可精確計算的聯合對數似然,可直接用標準策略梯度方法進行優化。

      Flow-SDE

      • ODE-SDE 轉化:將原有確定性ODE 去噪步驟,轉化為等效 SDE,從而在策略中引入隨機性。
      • 構建兩層 MDP:SDE 去噪作為內層循環,與智能體-環境交互(外層循環)結合,構建雙層MDP 結構
      • 混合采樣提速:訓練中大部分采用ODE 確定性采樣,小部分用SDE 探索,以加速訓練同時保證探索。
      • 策略梯度優化:在雙層MDP 中,策略輸出由與環境交互的動作轉為流匹配模型輸出的速度場,可直接進行策略梯度優化。

      Critic 設計

      針對π0和π0.5模型,πRL應用PPO 算法微調時,探索了兩種Actor-Critic 架構

      • Action Expert Critic(適用于π0)

      • VLM 僅包含圖像和語言信息,機器人狀態與噪聲動作一同送入 Action Expert。
      • Critic 接 Action Expert隱藏層輸出,并通過對全部噪聲步取平均獲得穩定的估計。

      • VLM Critic(適用于π0.5)

      • VLM 融合全部輸入(圖像、語言、機器人狀態)。
      • Critic 直接接 VLM隱藏層輸出。



      圖 3:我們系統性地探索了兩種 Critic 設計思路:一種將 Critic 部署在動作模型(Action Expert)之后,另一種則將 Critic 直接接入視覺語言模型(VLM)后。

      實驗結果

      πRL 在常用VLA 評測集 LIBERO 及 ManiSkill自建多任務集上驗證了其有效性。

      LIBERO:少樣本 SFT+RL 范式超越全數據 SFT!

      πRL讓π0(few-shot)平均成功率從57.6% 提高到 97.6%,π0.5(few-shot)從77.1% 提高到 98.3%,超越全數據 SFT 訓練的流匹配 VLA 表現。



      圖 4:LIBERO 測試平臺下的性能對比

      與此同時,在LIBERO-Long 長時序任務上,πRL使π0.5單樣本 (one-shot) SFT性能從 43.9% 提升到 94.0%!



      圖 5:LIBERO-Long任務 one-shot SFT 的 RL收斂曲線

      ManiSkill:驗證大規模多任務 RL 能力!

      為了驗證πRL大規模多任務的支持能力,我們在Maniskill 中構造了涵蓋4,352 種抓取-放置任務組合。結果表明,通過在320個并行環境中進行訓練,πRL(Flow-Noise)將π0成功率從38.42% 提升到 78.83%,π0.5成功率從40.06% 提升到 90.85%。



      圖 6:ManiSkill Main任務中Pi05的RL收斂曲線

      此外,我們還設計了12 個與訓練環境不同的域隨機化測試環境,用于考察模型的泛化能力。在這些環境中,我們改變語言指令、物體類型、桌面紋理,或者在執行過程中移動物體、添加多個物體,來考察模型的泛化能力,并在每個環境中進行了256 次測試來排除統計漲落的結果的影響。結果表明,πRL算法能夠顯著提升兩類模型在新環境下的泛化性能



      圖 7:ManiSkill環境中對泛化能力的測試

      我們還在實驗中觀測到,相比監督微調,強化學習可以使得模型更少犯錯,模型完成操作任務的平均步數可以顯著減少,直到逼近專家數據水平:



      圖 8:強化學習提高完成任務的效率

      消融研究

      除上述對比試驗外,論文還包含大量消融實驗,為后續基于流匹配VLA 的 RL研究積累了經驗。

      • 算法對比(PPO vs. GRPO):使用流匹配VLA,PPO 在最終性能和訓練穩定性上均優于GRPO



      圖 9:PPO 和 GRPO 算法的收斂曲線對比

      • MDP 對比:Flow-Noise(單層 MDP)收斂略快,Flow-SDE(雙層 MDP)單步更新更快(與去噪步數解耦),最終性能接近。

      • 隨機性注入對比:可學習噪聲(Flow-Noise)與固定噪聲(Flow-SDE)兩種策略,在相同MDP 框架下性能類似,證明兩類噪聲注入均有效。

      • Critic 設計:Critic 接在 VLM 后略優于接在Action Expert 后,且更穩定。

      更多技術細節和消融結果詳見論文。

      未來展望

      πRL未來將繼續發布更多結果,包括:

      • 更多基準測試集:接入更多仿真環境,進行更豐富的評測。
      • 提升 OOD 泛化能力:針對強化學習帶來的泛化增益展開更深入分析。
      • 真實機器人部署:推動πRL框架從仿真走向真實物理機器人,驗證其實際應用價值。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      重磅!兩江新區官宣!利好蔡家汽博照母山中央公園!

      重磅!兩江新區官宣!利好蔡家汽博照母山中央公園!

      小李子體育
      2025-11-06 13:23:47
      張玉寧打進國安生涯第59球,超越巴坎布成為隊史第二射手

      張玉寧打進國安生涯第59球,超越巴坎布成為隊史第二射手

      懂球帝
      2025-11-06 21:54:14
      攔婚車索要50條煙:打著討喜名義瘋狂“敲竹杠”

      攔婚車索要50條煙:打著討喜名義瘋狂“敲竹杠”

      新京報
      2025-11-06 19:44:31
      中國是否會撤銷對美國美光公司的禁售?商務部回應

      中國是否會撤銷對美國美光公司的禁售?商務部回應

      界面新聞
      2025-11-06 16:31:52
      女子水洗貂退貨后續:老板娘起訴了,買家已社會性死亡,底褲被扒

      女子水洗貂退貨后續:老板娘起訴了,買家已社會性死亡,底褲被扒

      觀察鑒娛
      2025-11-06 10:00:08
      雙11裝機首選:3套硬核硬件,助你滿幀暢玩《戰地6》

      雙11裝機首選:3套硬核硬件,助你滿幀暢玩《戰地6》

      科技麋鹿
      2025-11-05 19:08:54
      60名八路軍蘆葦蕩被5000日軍三面合圍,船夫指向水鳥,團長:有救了!

      60名八路軍蘆葦蕩被5000日軍三面合圍,船夫指向水鳥,團長:有救了!

      蕭竹輕語
      2025-10-21 16:16:45
      邱貽可在方博直播間說國乒不讓教練去澳門 劉志強已抵達?有待證實

      邱貽可在方博直播間說國乒不讓教練去澳門 劉志強已抵達?有待證實

      勁爆體壇
      2025-11-06 18:46:03
      對銀行們來說,當下什么樣的資產最值錢?

      對銀行們來說,當下什么樣的資產最值錢?

      大何日拱一卒
      2025-11-05 21:28:27
      郭美美被封號!持續炒作炫富拜金等行為,多次高調宣揚不良價值觀

      郭美美被封號!持續炒作炫富拜金等行為,多次高調宣揚不良價值觀

      每日經濟新聞
      2025-11-06 17:28:27
      俄上門請求深度兼容北斗,拿到中方回復后,俄已做好最后的打算

      俄上門請求深度兼容北斗,拿到中方回復后,俄已做好最后的打算

      諾諾談史
      2025-11-06 16:04:43
      難怪老蔣必除戴笠:他手下武裝隊,已強到可輕松擊敗蔣軍二流兵團

      難怪老蔣必除戴笠:他手下武裝隊,已強到可輕松擊敗蔣軍二流兵團

      小豫講故事
      2025-11-06 06:00:03
      重慶行政區劃大調整:兩江新區升級背后的國家戰略棋局

      重慶行政區劃大調整:兩江新區升級背后的國家戰略棋局

      民言民語
      2025-11-06 15:27:32
      朝鮮專列進京有多離譜?金正恩來中國為何坐火車不坐飛機?

      朝鮮專列進京有多離譜?金正恩來中國為何坐火車不坐飛機?

      詩意世界
      2025-09-17 13:19:48
      李湘胖到彎不下脖子,機場罕用便宜貨,被人搭話她不理還嘲諷冷哼

      李湘胖到彎不下脖子,機場罕用便宜貨,被人搭話她不理還嘲諷冷哼

      洲洲影視娛評
      2025-11-04 13:46:08
      人活多久,看小便就能知道?壽命長的人,小便一般會有這5個特征

      人活多久,看小便就能知道?壽命長的人,小便一般會有這5個特征

      健身狂人
      2025-10-26 14:13:51
      11月9日起,王愛山有了家門口的“小針刀??啤?!

      甬尚雷鋒
      2025-11-06 21:04:56

      秦雯“襲警錄音門”發酵升級!她是三八紅旗手,網傳配偶比較厲害

      秦雯“襲警錄音門”發酵升級!她是三八紅旗手,網傳配偶比較厲害

      火山詩話
      2025-11-04 06:13:25
      一代巨匠謝幕,楊振寧遺產分配曝光,翁帆所得遠超常人所想!

      一代巨匠謝幕,楊振寧遺產分配曝光,翁帆所得遠超常人所想!

      云深不知在何處
      2025-10-28 15:13:13
      全運會男足U20八強出爐:上海、新疆等隊晉級,浙江被抽簽淘汰

      全運會男足U20八強出爐:上海、新疆等隊晉級,浙江被抽簽淘汰

      懂球帝
      2025-11-06 15:32:48
      2025-11-06 23:36:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11665文章數 142499關注度
      往期回顧 全部

      科技要聞

      小鵬機器人里藏真人?何小鵬發一鏡到底視頻

      頭條要聞

      "迷你共享摩托"現身長沙 投放公司:車輛是共享電動車

      頭條要聞

      "迷你共享摩托"現身長沙 投放公司:車輛是共享電動車

      體育要聞

      送走兩位全明星,公牛成了東部第一

      娛樂要聞

      “黑料纏身”的白百何 誰給她的勇氣?

      財經要聞

      南銀法巴加速發展背后:資金饑渴癥待解

      汽車要聞

      是我眼花了么?怎么大猩猩都來參加新車發布了?

      態度原創

      本地
      時尚
      教育
      公開課
      軍事航空

      本地新聞

      這屆干飯人,已經把博物館吃成了食堂

      看看這些穿搭就知道,秋季穿衣很簡單,找對方法舒適又得體

      教育要聞

      孩子的數學危機,早在小學就埋下了

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美國發射洲際彈道導彈 俄方回應

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 99久久精品国产熟女拳交| 国产精品中文字幕综合| 亚洲综合在线一区二区三区| 成年美女黄网站色大片免费看| 中国亚州女人69内射少妇| 人妻少妇偷人无码视频| 99久久精品国产一区二区蜜芽| 五月天久久综合国产一区二区 | 亚洲一区二区精品另类| 国产午夜91福利一区二区| 安塞县| 久久久久青草线蕉亚洲| 精品无码人妻| 亚洲中文字幕无码中字| 国产日韩成人内射视频| 亚洲男人的天堂久久香蕉| 午夜福利偷拍国语对白| 亚洲精品无码日韩国产不卡av| 波多野结衣av高清一区二区三区 | 丰满熟妇人妻中文字幕| 亚洲最大成人av免费看| 老司机aⅴ在线精品导航| 一本一道久久综合狠狠老| 亚洲国产精品线观看不卡| 色综合色综合色综合久久| 亚洲精品国产一区二区三区在线观看 | 中文字幕国产精品资源| 亚洲av色香蕉一区二区三区精品 | 国产乱子伦一区二区三区四区五区 | 国产第一页浮力影院入口| 在线免费不卡视频| 成人看的污污超级黄网站免费 | 在线观看中文字幕码国产| 亚洲av成人一区国产精品| 国产精品女在线观看| 狠狠色综合tv久久久久久| 中文人妻av高清一区二区| 国产gaysexchina男外卖| 壤塘县| 久久亚洲国产精品五月天| 久久精品不卡一区二区|