<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      騰訊提出RLVMR框架,讓7B模型「思考」比肩GPT-4o

      0
      分享至



      本論文的主要作者來自騰訊混元 AI 數字人團隊 (Tencent Hunyuan AI Digital Human)。該團隊致力于打造「有智商、有情商、有溫度的數字人」,旨在為用戶提供高度擬人、可信賴的數字伙伴,進而實現富有溫度與信任的情感交互。

      自主智能體(Agents)正朝著能夠處理復雜長程任務(Long-Horizon Tasks)的通用智能(AGI)邁進,但許多研究者發現了一個尷尬的現實:很多智能體雖然能完成任務,卻像個「只會蒙答案的學生」,其成功往往依賴于運氣和低效的試錯,而非真正高效、可泛化的推理能力。一旦環境稍作改變,它們便漏洞百出。

      這種「結果正確,但過程混亂」的現象,是當前長程智能體(Long-Horizon Agents)強化學習(RL)范式的一大瓶頸。智能體在探索中,只因最終能完成任務便獲得獎勵,而其間大量的冗余操作、無效探索,甚至錯誤的推理路徑,都被無意中 「強化」 和固化。這導致了兩個核心難題:

      1.低效探索難題:智能體容易陷入「無效內卷」,反復嘗試無意義的動作,訓練成本高,推理效率低下。

      2.泛化脆弱難題:靠「蒙對」學會的策略缺乏邏輯基礎,在新任務面前不堪一擊,難以實現真正的魯棒性。

      如何讓智能體不僅「知其然」,更能「知其所以然」?

      面對這些難題,騰訊混元 AI 數字人團隊提出了RLVMR (Reinforcement Learning with Verifiable Meta-Reasoning Rewards)框架。這項工作開創性地將認知科學中的「元認知」(即 「思考自己的思考」)理論引入 RL,通過獎勵「好的思考過程」而非僅僅獎勵「好的結果」,首次實現了對智能體推理過程的端到端強化學習,成功解決了長程任務中的低效探索與泛化難題。



      • 論文地址: [2507.22844] RLVMR: Reinforcement Learning with Verifiable Meta-Reasoning Rewards for Robust Long-Horizon Agents
      • 項目代碼: digitalhuman/RLVMR at main?Tencent/digitalhuman?GitHub

      RLVMR:如何教會智能體「思考」,而不僅是「做事」?

      傳統方法要么依賴僵化的專家數據(SFT),要么依賴稀疏的結果獎勵(RL),都無法有效塑造智能體高質量的「思維習慣」。RLVMR 的破局點在于:為智能體的「思考過程」本身,設計一套可驗證、可優化的獎勵機制。



      1. 智能體學會「三思而后行」:引入元推理狀態

      RLVMR 賦予智能體「自我意識」的能力。在行動前,智能體需要先思考并給自己貼上一個「元推理標簽」,明確自己當前處于哪個認知階段:

      • 規劃(Planning):我準備做什么?計劃是什么?
      • 探索(Exploring):我正在執行計劃,探索方案。
      • 反思(Reflecting):計劃出錯了?我需要糾正什么?

      這套機制讓智能體的「內心戲」變得明確、可追蹤,為獎勵其「優質思考」提供了抓手。

      2. 獎勵「好思路」,懲罰「壞習慣」:可驗證的過程獎勵

      光有標簽還不夠,RLVMR 設計了一套輕量級的驗證規則,實時評估智能體的思考質量,并給予即時獎勵:

      • 獎勵高效思考:當智能體在「反思」后成功糾錯,或制定出有效「規劃」時,給予正向獎勵。
      • 懲罰低效行為:當智能體陷入無意義的動作循環或重復犯錯時,給予負向獎勵。

      這種「過程獎勵」機制,像一位貼身教練,不斷引導智能體優化其思考與決策路徑,從根本上杜絕「瞎蒙」行為。

      3. 從「結果導向」到「過程與結果并重」

      RLVMR 將「過程獎勵」與最終的「任務成功獎勵」相結合,通過策略梯度方法進行端到端優化。這使得智能體在追求最終目標的同時,必須學會如何更聰明、更高效地達成目標。

      核心實驗成果:7B 模型比肩「巨頭旗艦」

      在極具挑戰性的 ALFWorld 和 ScienceWorld 兩大長程任務基準上,RLVMR 展現了統治級的性能。經過 RLVMR 訓練的 7B 模型,在難度最高、從未見過的任務(L2 泛化等級)上,成功率高達 83.6%,不僅遠超此前所有 SOTA 模型,更證明了其強大的泛化能力。



      此外,我們的方法訓練出的智能體更「聰明」,解決任務的路徑更直接,在 ALFWorld 和 ScienceWorld 的 L2 復雜環境中,所需動作數最高減少 28.1%。此外,訓練過程本身也告別了「反復橫跳」式的低效學習,收斂速度更快、策略更穩定,顯著緩解了無效探索問題。





      超越分數:RLVMR 實驗中的深度洞察

      洞察一:智能體學會「反思」,告別「無效內卷」

      傳統 RL 智能體像一個埋頭刷題但從不復盤的學生,容易在錯誤路徑上反復掙扎。RLVMR 的核心貢獻在于教會了智能體「反思」(Reflecting)。



      實驗數據顯示,引入「反思」機制后,智能體在遇到困難時,不再是盲目重試,而是能夠主動識別問題、調整策略。這正是其重復動作率大幅降低、任務成功率飆升的根本原因。它揭示了一個關鍵點:對于復雜任務,教會智能體如何從失敗中學習,比單純「喂」給它成功的經驗更重要。

      洞察二:好的推理習慣,是泛化能力的基石

      為什么 RLVMR 在未見任務上表現如此出色?



      我們發現,通過獎勵「好的思考過程」,RLVMR 幫助智能體建立了一套通用的、不依賴于特定任務的「元問題解決框架」(如何規劃、如何探索、如何反思)。當面對新環境(L2)時,智能體調用的不再是某個僵化的「解題模板」,而是這套靈活的「思維方法論」。

      這證實了一個重要猜想:真正的泛化能力,源自于對問題解決過程的深刻理解,而非對問題答案的機械記憶。 RLVMR 正是通往這條道路的有效路徑。

      洞察三:先 「冷啟動」 再 「強化」—— 智能體的成長階梯設計

      RLVMR 采用了「冷啟動 SFT + 強化學習 RL」的兩階段訓練流程。這并非簡單的流程拼接,而是一種符合認知規律的「成長曲線」設計。

      • 冷啟動階段(SFT):如同基礎教育,讓智能體先通過模仿學習,快速掌握「規劃」「反思」等元推理概念的基本表達方式。
      • 強化學習階段(RL):如同進入社會實踐,讓智能體在真實環境中自由探索,通過「過程獎勵」的不斷反饋,將學到的概念內化為真正的能力。



      這一策略啟示我們:在訓練高級智能體時,「先教會它如何思考,再放手讓它去犯錯成長」,可能是比單一訓練范式更高效的路徑。

      總結與展望

      RLVMR 的提出,為智能體訓練帶來了從「結果導向」到「過程導向」的范式革新。它證明了,通過對智能體「思考過程」的直接建模與獎勵,我們能夠有效破解長程任務中的「低效探索」與「泛化脆弱」兩大難題。

      我們對 AGI 的終極期待,是一個能夠獨立思考、理性決策的伙伴,而不是一個只會尋找捷徑的「做題家」。RLVMR 的工作,正是鼓勵大模型從偶然涌現的能力,走向特定思維模式的強化,為構建更魯棒、更高效、更可解釋的通用智能體邁出了堅實的一步。

      這項研究不僅為長程智能體訓練提供了新思路,也為我們探索能真正理解世界、應對未知的下一代 AI 帶來了新的曙光。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      這次輪到白家了,7人被判死刑!

      這次輪到白家了,7人被判死刑!

      談芯說科技
      2025-11-05 19:44:35
      沉默4天后,中方開了金口,若對委內瑞拉開戰,美國結局只有一個

      沉默4天后,中方開了金口,若對委內瑞拉開戰,美國結局只有一個

      時時有聊
      2025-11-05 12:01:05
      特別策劃丨胡海峰:“十五五”時期要加快推進資本市場投融資綜合改革

      特別策劃丨胡海峰:“十五五”時期要加快推進資本市場投融資綜合改革

      中國經濟時報
      2025-11-05 14:35:14
      要價5000萬!曝曼聯相中巴薩棄將 拉什福德無緣回歸

      要價5000萬!曝曼聯相中巴薩棄將 拉什福德無緣回歸

      球事百科吖
      2025-11-05 01:39:04
      惡心啊!被爸爸偷看洗澡女孩后續,婦聯已經介入,結果不出所料!

      惡心啊!被爸爸偷看洗澡女孩后續,婦聯已經介入,結果不出所料!

      知曉科普
      2025-11-05 10:05:36
      確認了!明天抵達常州!

      確認了!明天抵達常州!

      中吳網
      2025-11-05 18:06:27
      庫里:克萊的投籃姿勢簡直完美,我會讓年輕人學他的投籃姿勢

      庫里:克萊的投籃姿勢簡直完美,我會讓年輕人學他的投籃姿勢

      懂球帝
      2025-11-05 11:11:02
      宋朝之前連棉被都沒有,零下幾十度的寒冬,古人是怎么熬過去的?

      宋朝之前連棉被都沒有,零下幾十度的寒冬,古人是怎么熬過去的?

      法老不說教
      2025-11-03 19:36:43
      官方丨 米蘭上下半場各遲到2分鐘,被罰款……

      官方丨 米蘭上下半場各遲到2分鐘,被罰款……

      米蘭圈
      2025-11-05 09:55:55
      演員王祖藍,受聘為高校教授

      演員王祖藍,受聘為高校教授

      極目新聞
      2025-11-05 09:50:06
      從此,請叫“貝爵爺”!貝克漢姆獲封英國王室最高爵士頭銜

      從此,請叫“貝爵爺”!貝克漢姆獲封英國王室最高爵士頭銜

      封面新聞
      2025-11-05 16:29:05
      美國儲量全球第一,可中國卻95%靠進口,若美斷供中國要如何應對

      美國儲量全球第一,可中國卻95%靠進口,若美斷供中國要如何應對

      流史歲月
      2025-11-05 14:41:21
      你只是來體驗生命的,不是來害怕的

      你只是來體驗生命的,不是來害怕的

      青蘋果sht
      2025-11-01 05:52:54
      發現老公外套口袋里有鹽酸達泊西汀片,我悄悄換成枸櫞酸西地那非

      發現老公外套口袋里有鹽酸達泊西汀片,我悄悄換成枸櫞酸西地那非

      凱裕說故事
      2025-09-26 19:00:08
      廣東一醫院招牌破損,“偉倫醫院”被誤讀為“律偷醫院”

      廣東一醫院招牌破損,“偉倫醫院”被誤讀為“律偷醫院”

      極目新聞
      2025-11-05 16:29:42
      數千人!又一科技巨頭宣布裁員

      數千人!又一科技巨頭宣布裁員

      智東西
      2025-11-05 20:53:08
      一位76歲母親的傾訴:此生最后悔的事,就是幫女兒帶孩子

      一位76歲母親的傾訴:此生最后悔的事,就是幫女兒帶孩子

      人間百態大全
      2025-10-25 06:50:03
      地球46億年歷史只有人類文明嗎?有沒有其他文明存在?

      地球46億年歷史只有人類文明嗎?有沒有其他文明存在?

      宇宙時空
      2025-11-04 18:32:44
      賽力斯,上市首日大跌

      賽力斯,上市首日大跌

      魯中晨報
      2025-11-05 11:31:08
      世界大湖真稀缺啊!全球面積超過1萬km2的才17個,僅5國獨自擁有

      世界大湖真稀缺啊!全球面積超過1萬km2的才17個,僅5國獨自擁有

      全城探秘
      2025-11-04 16:33:03
      2025-11-05 21:55:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11656文章數 142498關注度
      往期回顧 全部

      科技要聞

      大轉彎!特朗普再提名馬斯克盟友任NASA局長

      頭條要聞

      楊受成名下英皇宮殿停運 曾以大堂鋪滿78公斤黃金聞名

      頭條要聞

      楊受成名下英皇宮殿停運 曾以大堂鋪滿78公斤黃金聞名

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發心臟病去世

      財經要聞

      事關加快建設金融強國 中央金融辦發聲

      汽車要聞

      智己LS9入局"9系"混戰 全尺寸SUV市場迎來新變量

      態度原創

      旅游
      親子
      時尚
      家居
      數碼

      旅游要聞

      瘦西湖菊花會刷屏:500 種名菊綻放,這抹秋韻錯過等一年!

      親子要聞

      為“三低”心肌病患兒植入人工雙心

      50+女人快跳出“扮嫩”誤區,學會4個技巧,就能穿出高級

      家居要聞

      別樣府院 暢享詩意生活

      數碼要聞

      AMD銳龍AI Max+ 388/392蓄勢待發:滿血最強集顯 降落凡間

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 一区二区三区四区国产综合| 国产精品三级黄色小视频| 激情综合色综合久久综合| 日韩最新中文字幕| 新绛县| 亚洲精品99久久久久久欧美版| 国产精品区一二三四久久| 色成人亚洲| 精品偷拍被偷拍在线观看| 国产二区三区不卡免费| 中文字幕有码无码AV| 韩国19禁无遮挡啪啪无码网站| 精品一日韩美女性夜视频| 中文字幕日韩有码av| 男人扒开女人内裤强吻桶进去| 欧美性猛交xxxx乱大交极品| 午夜福利宅福利国产精品| 97在线观看视频免费| 最新亚洲人成网站在线影院| 国产精品三级爽片免费看| 男女爽爽无遮挡午夜视频| 风流老熟女一区二区三区| 亚洲一区二区三区十八禁| 亚洲一国产一区二区三区| 亚洲国产精品高清久久久| 99精品国产兔费观看久久99| 国产精品无遮挡在线观看| 欧美怡春院一区二区三区| 精品人妻中文字幕在线| 国产色婷婷亚洲99精品小说| 亚洲精品天天影视综合网| 亚洲日本欧洲二区精品| 永久免费无码av在线网站| 丰满无码人妻热妇无码区| 五月婷婷久久草| 无套内谢少妇一二三四| 日韩人妻中文字幕精品| 中国大陆高清aⅴ毛片| 国产裸体无遮挡免费精品| 亚洲一区二区中文字幕| 亚洲2022国产成人精品无码区|