<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      AEPO:智能體熵平衡策略優化,讓探索更穩,推理更深!

      0
      分享至



      在智能體強化學習的快速發展中,如何在探索與穩定之間取得平衡已成為多輪智能體訓練的關鍵。主流的熵驅動式智能體強化學習(Agentic RL)雖鼓勵模型在高不確定性處分支探索,但過度依賴熵信號常導致訓練不穩、甚至策略熵坍塌問題。

      為此,中國人民大學高瓴人工智能學院與快手 Klear 語言大模型團隊聯合提出 Agentic Entropy-Balanced Policy Optimization(AEPO),一種面向多輪智能體的熵平衡強化學習優化算法。

      AEPO 系統性揭示了「高熵 Rollout 采樣坍縮」和「高熵梯度裁剪」問題,并設計了「動態熵平衡 Rollout 采樣」與「熵平衡策略優化」兩項核心機制。前者通過熵預監控與連續分支懲罰實現全局與局部探索預算的自適應分配,后者在策略更新階段引入梯度停止與熵感知優勢估計以保留高熵 token 的探索梯度。



      圖 1:AEPO 性能概覽:左圖對比深度搜索任務性能,右圖對比通用推理任務性能

      實驗結果表明,AEPO 在 14 個跨領域基準上顯著優于七種主流強化學習算法。特別是深度搜索任務的 Pass@5 指標:GAIA (65.0%), Humanity’s Last Exam (26.0%), WebWalkerQA (70.0%)。在保持訓練穩定性的同時進一步提升了采樣多樣性與推理效率,為通用智能體的可擴展強化訓練提供了新的優化范式。



      • 論文標題:Agentic Entropy-Balanced Policy Optimization
      • 論文鏈接:https://arxiv.org/abs/2510.14545
      • 代碼倉庫:https://github.com/dongguanting/ARPO
      • 開源數據 & 模型:https://huggingface.co/collections/dongguanting/aepo-68ef6832c99697ee03d5e1c7

      目前AEPO 在 X 上收獲極高關注度,Github 倉庫已獲星標 700 余枚,同時榮登 Huggingface Paper 日榜第二名!





      研究動機:在高熵中尋求平衡

      隨著 Agentic RL 的發展,如何在持續探索與訓練穩定之間取得平衡已成制約智能體性能的關鍵。現有方法(如 ARPO)通常依賴熵信號作為依據,并在高熵時刻觸發分支采樣探索潛在推理路徑。我們的研究發現熵驅動的探索雖能提升多樣性,卻也帶來了顯著的訓練不穩定:模型在連續高熵的工具調用階段容易出現單一鏈條過度分支,導致探索受限(如下圖左側);同時在策略更新階段,高熵 token 的梯度常被無差別裁剪,使模型難以學習的探索行為(如下圖右側)。這種熵失衡也使智能體在強化學習中容易陷入局部最優解。



      圖 2:智能體中的高熵 Rollout 坍縮與高熵梯度裁剪現象

      因此,如何在高熵驅動下同時實現高效探索與穩定優化,成為智能體強化學習亟待突破的核心瓶頸。為此,我們提出 AEPO,一種面向多輪智能體的熵平衡強化學習優化算法。我們的貢獻如下:

      • 我們系統性分析并揭示了現有熵驅動的 Agentic RL 在高熵階段易出現的「rollout 坍縮」和「梯度裁剪」問題,為后續算法設計提供了經驗與理論依據。
      • 我們提出了 AEPO 算法,旨在通過「動態熵平衡 Rollout 采樣」與「熵感知策略優化」兩個階段實現強化學習探索與穩定的協同優化。
      • 在 14 個挑戰性基準上的實驗結果表明,AEPO 在采樣多樣性、訓練穩定性及工具調用效率方面均優于 7 種主流強化學習算法,為智能體在復雜開放環境下的可擴展訓練提供了新的啟發。

      工具調用的熵變現象:高熵集聚與梯度困境

      通過分析智能體在多輪工具調用強化學習中的 token 熵變與訓練過程,我們發現以下核心現象:

      1. 高熵工具調用步驟存在連續性:連續的高熵工具調用輪次占比達 56.5%,部分軌跡甚至出現 6 次連續高熵調用,這種連續性導致 rollout 階段的分支預算分配嚴重傾斜(如下圖左側);
      2. 高熵 Token 梯度裁剪:傳統 Agentic RL 算法在策略更新階段存在「無差別梯度裁剪」問題,未區分其是否包含有價值的探索行為,這些 token 大多是在推理中激發工具調用,反思等行為的提示(如下圖右側)。



      圖 3:智能體強化學習訓練中兩種熵相關問題的量化統計

      上述現象本質是高熵信號的雙重矛盾:高熵是智能體探索工具使用潛力的必要條件,但無約束的高熵連續性會破壞 rollout 資源分配,激進的梯度裁剪又會扼殺高熵的探索價值。

      AEPO 算法:熵驅動的精準探索與梯度保護



      圖 4:AEPO 概述

      動態熵平衡 Rollout 采樣:

      1.熵預監測:按信息增益分配采樣預算

      傳統 RL 算法(如 ARPO)憑經驗分配全局采樣與分支采樣的坍縮資源,AEPO 則基于信息增益理論,根據問題與工具的信息增益動態調整采樣預算,具體來說,在總 rollout 采樣的預算為 k(包含 m 次全局采樣與 k-m 次高熵分支采樣)的條件下,將 Rollout 階段的信息增益簡單地建模為:



      在語言模型的自回歸解碼過程中,輸入問題的信息增益通常由模型解碼的 token 熵值來衡量,因此我們可以得到如下正相關關系:



      因此,我們的目標是盡可能增大 Rollout 階段的信息增益,基于上述公式,AEPO 按信息增益分配采樣預算:





      2.連續高熵分支懲罰:避免單一軌跡過度分支

      即使預算分配合理,連續高熵調用仍可能導致單一軌跡過度分支。因此 AEPO 通過動態分支概率施加懲罰:



      實驗驗證:如下圖所示,相比于 ARPO 通常僅分支 2-3 條軌跡,而AEPO 可覆蓋全部 8 條預算軌跡(右圖),采樣聚類數從 54 提升至 62(左 2 圖),大幅提升 Rollout 采樣的多樣性。



      圖 5:采樣多樣性 ARPO vs AEPO(左)與 Rollout 的分支采樣分布(右)

      熵平衡策略優化:

      1.熵裁剪平衡機制:保留高熵 Token 梯度

      收到 GPPO 啟發,AEPO 將「梯度停止」操作融入到策略更新的高熵裁剪項中,保證了前向傳播不受影響,同時保護了高熵 token 的梯度在反向傳播時不被裁剪。AEPO 在策略更新時使用如下公式:











      這一設計讓高熵探索性 Token 的梯度得以保留,避免訓練初期探索能力流失。

      2.熵感知優勢估計:優先學習高價值探索行為





      實驗結果:14 個基準驗證 AEPO 的高效與穩定

      為了充分評估 AEPO 的泛化性和高效性,我們考慮以下三種測試集:

      • 計算型推理任務:評估模型的計算推理能力,包括 AIME24、AIME25、MATH500、GSM8K、MATH。
      • 知識密集型推理任務:評估模型結合外部知識推理的能力,包括 WebWalker、HotpotQA、2WIKI、MisiQue、Bamboogle。
      • 深度搜索任務:評估模型的深度搜索能力,包括 HLE、GAIA、SimpleQA、XBench、Frames。

      深度信息檢索任務:小樣本實現大突破





      如上表所示,僅用 1K RL 訓練樣本,Qwen3-14B+AEPO 在關鍵任務上表現優異:

      • AEPO 在 Pass@1 上較 ARPO 平均提升 3.9%;在 Pass@5 上較 ARPO 平均提升 5.8%;
      • 對比梯度裁剪優化 RL 算法(DAPO、CISPO、GPPO):AEPO 在 GAIA 任務上領先 7%-10%,在 Qwen3-14B 基座上取得了 47.6% 的 Pass@1 與 65% 的 Pass@5,這證明熵平衡機制優于單純的梯度裁剪優化 RL 算法;
      • 對比傳統 RL(GRPO、Reinforce++):AEPO 在 HLE 任務上領先 2.6%-3.4%,在 Qwen3-14B 基座上取得了 11.2% 的 Pass@1 與 26% 的 Pass@5,凸顯 Agentic RL 中熵平衡的必要性。



      我們比較了 7 種強化學習算法在 10 個推理任務中的表現,發現:

      • 梯度裁剪優化算法的穩定性差:在 Qwen 2.5-7B-instruct 上,梯度裁剪優化算法表現良好,但在 Llama3-8B 上未顯著優于 GRPO,且易導致熵崩潰。
      • Agentic RL 算法具備泛化能力:ARPO,GIGPO,AEPO 等算法在不同模型上表現穩定,證明在高熵環境下的分支探索有效。
      • AEPO 優勢顯著:AEPO 在所有測試中表現突出,一致性高于 7 種主流 RL 算法。并且平均準確率比 GRPO 高 5%,更適合訓練多輪次 Web 智能體。

      實驗:熵穩定與準確率分析

      在 Agentic RL 訓練中,熵動態穩定性與訓練準確率收斂性是衡量算法有效性的核心指標:熵過高易導致探索失控,熵過低則會引發探索不足;而準確率的持續提升則直接反映模型對有效工具使用行為的學習能力。

      我們對比 AEPO 與主流 RL 算法(含 ARPO、GRPO、DAPO 等)在 10 個推理任務中的訓練動態,清晰揭示了 AEPO 在「熵穩定」與「準確率提升」雙維度的優勢。實驗發現訓練的熵損失驟增與下降都不會對性能帶來增益;相比之下,AEPO 的熵損失全程維持高且穩定,對應穩定的性能增益。其表現遠超其他 RL 算法,且解決了 ARPO 在訓練后期熵波動的問題。



      圖 5:訓練指標可視化,包括各訓練步驟的熵損失(左)和準確率(右)

      總結與未來展望

      未來可從三個方向進一步拓展:

      • 多模態 Agent:當前 AEPO 與 ARPO 均聚焦文本任務,未來可擴展至圖像、視頻等多模態輸入,探索多模態工具的熵平衡優化,解決多模態反饋帶來的熵波動問題。
      • 工具生態擴展:引入更復雜工具(如 MCP 服務、外部訂機票酒店服務調用、代碼調試器),基于 AEPO 的熵感知機制優化多工具協作策略,提升復雜任務表現,超越現有工具協作能力。
      • 多智能體強化學習:探索在更多智能體的協作學習,互相任務交互與博弈中找到平衡,實現收斂。

      作者介紹

      董冠霆目前就讀于中國人民大學高瓴人工智能學院,博士二年級,導師為竇志成教授和文繼榮教授。他的研究方向主要包括智能體強化學習、深度搜索智能體,大模型對齊等。在國際頂級會議如 ICLR、ACL、AAAI 等發表了多篇論文,并在快手快意大模型組、阿里通義千問組等大模型團隊進行實習。其代表性工作包括 ARPO、AUTOIF、Tool-Star、RFT、Search-o1、WebThinker、Qwen2 和 Qwen2.5 等。

      • 個人主頁:dongguanting.github.io

      本文的通信作者為中國人民大學的竇志成教授與快手科技的周國睿。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      山西王閻錫山的妹妹,沒來得及跟哥哥逃到臺灣,她的結局如何?

      山西王閻錫山的妹妹,沒來得及跟哥哥逃到臺灣,她的結局如何?

      鶴羽說個事
      2025-11-04 16:56:07
      有點被迫?C羅談求婚:喬治娜向我要了一枚戒指,我沒有單膝下跪

      有點被迫?C羅談求婚:喬治娜向我要了一枚戒指,我沒有單膝下跪

      茜子足球
      2025-11-05 12:23:32
      98年他花5萬買下上海弄堂破閣樓,鄰居都笑他癡,20年后全都閉嘴了

      98年他花5萬買下上海弄堂破閣樓,鄰居都笑他癡,20年后全都閉嘴了

      溫情郵局
      2025-10-21 11:41:22
      一個讓元朝和明朝都翻車的計劃,700年后,我們還能再試一次嗎?

      一個讓元朝和明朝都翻車的計劃,700年后,我們還能再試一次嗎?

      小豫講故事
      2025-11-04 06:00:03
      燒成骨架的殘骸,開始反噬電車行業,吹牛造成的惡果

      燒成骨架的殘骸,開始反噬電車行業,吹牛造成的惡果

      柏銘銳談
      2025-10-31 16:38:05
      上海市規模較大的二十家醫院

      上海市規模較大的二十家醫院

      王曉愛體彩
      2025-11-05 09:33:42
      中產真沒錢!孩子的國際學校退費潮來了,全家都在“教育降級”

      中產真沒錢!孩子的國際學校退費潮來了,全家都在“教育降級”

      阿器談史
      2025-11-02 21:47:50
      特朗普支持率崩盤!白人集體倒戈,經濟政策失利,美陷入信任危機

      特朗普支持率崩盤!白人集體倒戈,經濟政策失利,美陷入信任危機

      南宮一二
      2025-11-05 07:47:34
      蘇州地鐵暗戰:百強縣張家港為何主動“棄賽”?背后暗藏三重博弈

      蘇州地鐵暗戰:百強縣張家港為何主動“棄賽”?背后暗藏三重博弈

      趣味萌寵的日常
      2025-11-05 00:53:01
      前谷歌CEO砸1億養情人,逼婚不成反目,法庭互撕太狗血

      前谷歌CEO砸1億養情人,逼婚不成反目,法庭互撕太狗血

      三言科技
      2025-11-01 09:18:12
      任天堂:84%的NS1玩家已經升級到了NS2設備

      任天堂:84%的NS1玩家已經升級到了NS2設備

      游民星空
      2025-11-05 12:24:17
      福建企業家蘇新添追悼會!全村人送別,村頭到村尾,網友:他值得

      福建企業家蘇新添追悼會!全村人送別,村頭到村尾,網友:他值得

      裕豐娛間說
      2025-11-05 00:19:09
      荷蘭停止向中國安世晶圓供貨,德國態度180度轉變,令全球吃驚

      荷蘭停止向中國安世晶圓供貨,德國態度180度轉變,令全球吃驚

      張鴘喜歡軟軟糯糯
      2025-11-03 10:56:11
      《樹影迷宮》出圈理由:廖凡的演技,張可盈的臉,劉琳的衣品

      《樹影迷宮》出圈理由:廖凡的演技,張可盈的臉,劉琳的衣品

      星宿影視鴨
      2025-11-04 17:08:19
      火箭男模軍團開啟3連客!KD防守成最佳 兩替補1數據包攬聯盟前二

      火箭男模軍團開啟3連客!KD防守成最佳 兩替補1數據包攬聯盟前二

      顏小白的籃球夢
      2025-11-05 10:18:29
      中央讓譚震林撰寫紀念毛主席的文章,譚說:盡是歌功頌德,沒新意

      中央讓譚震林撰寫紀念毛主席的文章,譚說:盡是歌功頌德,沒新意

      榮兮史說
      2025-11-05 12:36:29
      俄烏大結局終于要來?最大罪人已浮現,澤連斯基終于等來美方信號

      俄烏大結局終于要來?最大罪人已浮現,澤連斯基終于等來美方信號

      漫步獨行俠
      2025-11-05 11:12:25
      72歲老人中毒身亡!醫生提醒:吃完降壓藥千萬別碰它,中老年要看

      72歲老人中毒身亡!醫生提醒:吃完降壓藥千萬別碰它,中老年要看

      39健康網
      2025-10-28 19:30:54
      學醫后才明白,增強骨密度最好的運動,不是散步游泳,而是這個

      學醫后才明白,增強骨密度最好的運動,不是散步游泳,而是這個

      周哥一影視
      2025-10-23 12:39:17
      “我弟也要結婚,所以要兩套陪嫁房”未婚妻分手:退婚,不嫁了

      “我弟也要結婚,所以要兩套陪嫁房”未婚妻分手:退婚,不嫁了

      多久情感
      2025-11-03 21:59:16
      2025-11-05 13:43:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11649文章數 142497關注度
      往期回顧 全部

      科技要聞

      馬斯克萬億美元薪酬投票在即,大股東反對

      頭條要聞

      牛彈琴:美國上演極致"流氓外交" 讓西方媒體目瞪口呆

      頭條要聞

      牛彈琴:美國上演極致"流氓外交" 讓西方媒體目瞪口呆

      體育要聞

      開拓者的11號簽,變成了灰熊未來核心?

      娛樂要聞

      王家衛事件再次升級,可憐了這些明星

      財經要聞

      中方官宣!對美關稅,調整!

      汽車要聞

      首家"A+H"豪華新能源車企 賽力斯登陸港交所主板

      態度原創

      家居
      時尚
      游戲
      手機
      軍事航空

      家居要聞

      別樣府院 暢享詩意生活

      2025羽絨服8大流行趨勢,溫暖時髦過冬天!

      登錄送限定5星!《星穹鐵道》超燃大決戰今日開啟

      手機要聞

      數碼閑聊站瘋狂爆料,iQOO、榮耀、OPPO新機全在路上

      軍事要聞

      美國“福特”號航母駛往加勒比海

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 午夜毛片不卡免费观看视频| 久久精品蜜芽亚洲国产av| 亚洲人妻一区二区精品| 乱60一70归性欧老妇| 国产欧美日韩精品第二区| 亚洲精品一区二区五月天| 放荡的少妇2欧美版| 久久一区二区三区黄色片| 国产成人人综合亚洲欧美丁香花| 少妇被爽到高潮喷水久久欧美精品| 一区二区三区四区黄色片| 成人免费无遮挡在线播放| 山西省| 日本三级香港三级人妇99| 伊人久久精品无码麻豆一区| 欧美另类精品xxxx人妖| 在线视频一区二区三区色| 色AV专区无码影音先锋| 午夜国产精品福利一二| 亚洲乱码日产精品一二三| 国产欧美日韩免费看AⅤ视频| 亚洲AV无码一二区三区在线播放| 一区二区三区四区自拍视频| 久久天天躁夜夜躁狠狠85| 亚洲熟妇色xxxxx欧美老妇| 翘臀少妇被扒开屁股日出水爆乳| 亚洲风情亚aⅴ在线发布| 日韩熟女精品一区二区三区| 精品一区二区成人精品| 亚洲高清日韩专区精品| 99久久机热/这里只有精品| 俄罗斯少妇性XXXX另类| 免费人成网站免费看视频| 久青草国产综合视频在线| 免费99视频| 国产高清无遮挡内容丰富| 国产97视频人人做人人爱| 玛曲县| 日韩伦理片| 亚洲人成在线观看网站不卡| 欧美肥老太牲交大战|