<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      拒絕“熵崩塌”和“熵爆炸”!這項研究讓大模型推理成績飆升

      0
      分享至

      大語言模型在RLVR訓練中面臨的“熵困境”,有解了!

      2024年以來,以OpenAI o1、DeepSeek-R1、Kimi K1、Qwen3等為代表的大模型,在數學、代碼和科學推理任務上取得了顯著突破。這些進展很大程度上得益于一種名為RLVR (基于可驗證獎勵的強化學習)的方法。

      該方法通過數學驗證、單元測試等可自動判斷對錯的方式提供訓練信號,替代了傳統依賴人類評判的流程,使模型能夠進行大規模、高效率的自我改進。

      然而,RLVR在實踐中始終面臨“探索機制極易失衡”這一關鍵瓶頸——要么探索受限,陷入熵崩塌;要么探索失控,引發熵爆炸。

      為突破這一瓶頸,來自上海人工智能實驗室和復旦大學等機構的研究團隊提出選擇性熵正則化方法(SIREN),通過劃定探索范圍、聚焦關鍵決策、穩定訓練過程的三重機制,實現了對探索行為的精準調控。

      實驗證明,該方法不僅在多項數學推理基準上取得了顯著性能提升,更重要的是,它讓模型的探索過程變得更加高效與可控。



      下面詳細來看——

      核心困境:探索的“兩難陷阱”

      在RLVR訓練中,研究人員期望模型能夠持續探索多樣化的解題路徑,以避免過早陷入局部最優。

      一個自然的想法是:引入熵正則化(entropy regularization)。

      這是強化學習中鼓勵探索的經典手段。其核心思想很簡單:在優化目標中加入一項,鼓勵模型在每一步生成時保持一定的“不確定性”,不要過早把概率全壓在少數幾個詞上。

      具體來說,就是計算每一步輸出分布的熵(衡量“混亂程度”),再把整條推理軌跡的平均熵加到訓練目標里,用一個系數控制探索強度。

      以下公式分別為:熵的計算公式及熵正則的優化目標。





      然而,這一策略在大型推理模型(LRM)的復雜場景下卻極易走向兩個極端:

      • 探索受限(熵崩塌)

      當太小,熵項幾乎不起作用,模型迅速退化為近似確定性策略。平均熵迅速收斂,即發生熵崩塌。幾輪訓練后,所有回答都高度相似,陷入“舒適區”。這種熵崩塌現象不僅扼殺了模型的多樣性,也使其推理能力在訓練早期就觸及天花板,無法充分釋放潛力。

      • 探索失控(熵爆炸)

      反之,當稍大,模型便極易在龐大的動作空間(數十萬個token)與超長的推理軌跡(上千步生成)中失控。根據熵的定義,當概率分布越“平”,熵就越高。而在如此龐大的詞表中,哪怕只把一點點概率質量從高義詞(如“因此”)挪到無意義詞(如“<”“#@$%”),也能帶來顯著的熵增。

      更糟的是,在自回歸生成中,這種不確定性會沿著軌跡逐步累積——早期幾步的微小混亂,會迅速放大為整條推理鏈的失控。最終使得模型為了“拉高熵”,在每個位置、對每個token都分配一點概率,導致生成內容充斥無意義符號,邏輯斷裂、語義崩壞——這就是典型的熵爆炸(entropy explosion)。

      傳統方法會失效的根本原因在于:熵正則化的激勵是“無差別”的——它假設所有token、所有位置都同等值得探索。但LRM的生成過程具有鮮明的結構性:

      • 在每個生成步驟上,僅有概率排名靠前的少數token具備語義合理性,其余絕大多數token概率趨近于零且無實際意義;
      • 在整個生成序列中,僅有少數承擔邏輯樞紐作用的關鍵詞(如邏輯連接詞、變量名、結論引導詞)真正影響推理走向,而大量用于句法填充的常規詞則應保持高確定性,以維持推理連貫性。

      正因忽略了這種“探索價值的非均勻分布”,傳統熵正則化不僅難以有效引導探索,反而容易引發訓練不穩定,甚至背離提升推理能力的初衷。

      下圖表明,訓練前模型的概率分布高度集中,且只有少量位置在邏輯上關鍵,值得探索;過度探索后概率被攤薄,生成內容混亂。



      破局之道:為探索裝上“精準導航”

      針對傳統方法的不足,研究人員提出選擇性熵正則化方法(SIREN),通過結構化約束實現探索過程的精細調控。SIREN包含三個核心機制:

      1、劃定探索范圍(Top-p掩碼, Top-P Mask)

      在每個生成步驟中,將熵的計算范圍嚴格限定于概率最高的核心token集合,確保探索僅在語義合理的候選詞中進行,避免無效探索。

      2、識別關鍵決策點(峰值熵掩碼,Peak-entropy Mask)

      自動識別生成序列中熵值顯著高于平均水平的邏輯關鍵詞(如推理連接詞、假設引導詞等),并將探索激勵集中作用于這些關鍵位置。

      3、穩定訓練過程(自錨定正則化, Self-anchored Regularization)

      將熵值目標從最大化調整為維持合理區間,通過動態錨定機制使探索強度始終處于可控范圍,避免訓練失穩。

      這一方法首次在RLVR框架中實現了對探索范圍、位置和強度的三重精準控制,為大規模推理模型的穩定訓練提供了可靠解決方案。

      下圖為SIREN的方法流程:



      實驗驗證:有效探索促進性能提升

      實驗結果顯示,SIREN在不同模型和數據集上均取得顯著提升。

      以下為SIREN在Qwen2.5-Math-7B上的實驗結果:



      以及SIREN在其他基座模型上的實驗結果:



      上述結果表明:

      • 在Qwen2.5-Math-7B上,SIREN平均maj@k達54.6%,超越最強基線4.8%
      • 在最具挑戰的AIME24/25上,提升均達6.6%
      • 在1.5B到8B不同規模、不同基座的模型上均穩定有效。

      那么,這些性能提升從何而來?

      分析表明,這正是有效探索帶來的根本性改變。與傳統的熵正則方法相比,SIREN展現出更合理有效的探索模式。

      下圖中,SIREN展現出較高的pass@k,探索邊界顯著擴展:



      還能避免困惑度坍縮,SIREN將答案多樣性保持良好:



      下圖表明,先加大探索再緩慢收斂,訓練過程平穩可控:



      小結

      這項研究致力于解決大語言模型在RLVR訓練中面臨的策略探索難題。

      通過系統的實證分析,研究人員發現傳統的探索機制在大規模動作空間和長序列生成中極易失衡,導致模型陷入熵崩塌和熵爆炸的困境。

      為突破這一瓶頸,團隊提出了選擇性熵正則化方法(SIREN),通過劃定探索范圍、聚焦關鍵決策、穩定訓練過程的三重機制,實現了對探索行為的精準調控。實驗證明,該方法不僅在多項數學推理基準上取得了顯著性能提升,更重要的是,它讓模型的探索過程變得更加高效與可控。

      團隊表示,展望未來,隨著強化學習成為大模型后訓練的主流方法,如何實現穩定、可控、高效的探索,將成為釋放大模型潛力、突破性能瓶頸的核心議題。該研究提出的選擇性探索調控機制,為探索的精細化提供了一種可行的解決方案。

      團隊期待這項工作能為下一代推理模型的訓練范式提供啟發,推動大模型在數學、代碼、科學推理等復雜任務以及其他更廣闊的應用領域走得更遠。

      論文鏈接:https://arxiv.org/abs/2509.25133
      項目主頁:https://github.com/Linn3a/siren

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      16GB+1TB!新機官宣:首發驍龍8 Gen5+8000mAh電池!

      16GB+1TB!新機官宣:首發驍龍8 Gen5+8000mAh電池!

      科技堡壘
      2025-11-05 10:47:01
      因臀部過于性感 日恐怖游戲未通過Steam審核

      因臀部過于性感 日恐怖游戲未通過Steam審核

      3DM游戲
      2025-11-04 21:29:04
      兩家冷卻液供應商回應理想MEGA召回事件

      兩家冷卻液供應商回應理想MEGA召回事件

      中國能源網
      2025-11-04 12:54:07
      哈馬斯的坑道是怎么建造的?誰資助的?

      哈馬斯的坑道是怎么建造的?誰資助的?

      以色列計劃Pro
      2025-11-05 07:06:49
      杭州網紅“大逃亡”,網紅之都跌落神壇!

      杭州網紅“大逃亡”,網紅之都跌落神壇!

      財經三分鐘pro
      2025-11-05 13:58:59
      女孩每天去超市貨架偷面包,老板裝沒看見,10年后老板收到快遞哭了

      女孩每天去超市貨架偷面包,老板裝沒看見,10年后老板收到快遞哭了

      懸案解密檔案
      2025-11-03 10:58:58
      上海地鐵老人強坐女生腿上!身份曝光不簡單,警方沉默惹爭議!

      上海地鐵老人強坐女生腿上!身份曝光不簡單,警方沉默惹爭議!

      深析古今
      2025-11-05 09:24:04
      馬卡:C羅認為世界杯代表不了什么,但那是他簡歷上最大缺憾

      馬卡:C羅認為世界杯代表不了什么,但那是他簡歷上最大缺憾

      懂球帝
      2025-11-05 08:13:26
      陜西高二女生午休時操場產子,調查后發現,孩子父親身份不簡單

      陜西高二女生午休時操場產子,調查后發現,孩子父親身份不簡單

      蘇大強專欄
      2024-07-18 20:34:57
      看了郭汝瑰蔣緯國回憶錄才知:三大潛伏中將,為何唯獨吳石暴露

      看了郭汝瑰蔣緯國回憶錄才知:三大潛伏中將,為何唯獨吳石暴露

      宅家伍菇涼
      2025-11-04 16:03:06
      大陸衛星拍的臺灣全景照,讓臺灣專家徹底懵了!

      大陸衛星拍的臺灣全景照,讓臺灣專家徹底懵了!

      52赫茲實驗室
      2025-11-03 15:33:59
      今天全世界都在看的新聞2025.11.5

      今天全世界都在看的新聞2025.11.5

      鳳凰衛視
      2025-11-05 16:25:05
      首臺“京東汽車”下線,超8成用戶期待價格低于10萬

      首臺“京東汽車”下線,超8成用戶期待價格低于10萬

      藍鯨新聞
      2025-11-05 12:45:03
      山東菏澤發現堯帝墓,比秦始皇陵早兩千多年,填補了歷史考古空白

      山東菏澤發現堯帝墓,比秦始皇陵早兩千多年,填補了歷史考古空白

      小豫講故事
      2025-11-05 06:00:03
      朝鮮為他舉行國葬,曾任國家元首逾20年

      朝鮮為他舉行國葬,曾任國家元首逾20年

      中國新聞周刊
      2025-11-04 20:52:03
      沒想到!剛種草于和偉羽絨外套,居然漲了300塊!于和偉都傻眼了

      沒想到!剛種草于和偉羽絨外套,居然漲了300塊!于和偉都傻眼了

      樂悠悠娛樂
      2025-11-05 13:22:19
      快船2連敗后,哈登提出明確要求,泰倫盧確認2件事,一人要被重用

      快船2連敗后,哈登提出明確要求,泰倫盧確認2件事,一人要被重用

      體壇大辣椒
      2025-11-05 16:37:35
      你聽過最炸裂的八卦是什么?網友:慎看,否則看完都要洗眼睛哦

      你聽過最炸裂的八卦是什么?網友:慎看,否則看完都要洗眼睛哦

      帶你感受人間冷暖
      2025-11-04 00:05:11
      有個比自己有錢的兄弟姐妹是啥體驗?網友:大家只是有點血緣關系

      有個比自己有錢的兄弟姐妹是啥體驗?網友:大家只是有點血緣關系

      解讀熱點事件
      2025-11-03 00:15:03
      明天11月6號:農村信用社存款利率一夜大改?存款一萬元

      明天11月6號:農村信用社存款利率一夜大改?存款一萬元

      新浪財經
      2025-11-05 08:49:21
      2025-11-05 19:40:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      11632文章數 176326關注度
      往期回顧 全部

      科技要聞

      大轉彎!特朗普再提名馬斯克盟友任NASA局長

      頭條要聞

      國足換帥 邵佳一曾被贊是在德國踢球最成功的中國球員

      頭條要聞

      國足換帥 邵佳一曾被贊是在德國踢球最成功的中國球員

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發心臟病去世

      財經要聞

      中方官宣!對美關稅,調整!

      汽車要聞

      智己LS9入局"9系"混戰 全尺寸SUV市場迎來新變量

      態度原創

      時尚
      藝術
      數碼
      房產
      健康

      壞了,看到劇本殺鼻祖了!

      藝術要聞

      蒲華:搦管寫竹,墨沈淋漓

      數碼要聞

      威聯通發布24盤位企業級NAS:銳龍7 PRO 7000加持,支持192GB內存

      房產要聞

      最新!海南樓市10月熱銷榜單出爐!

      超聲探頭會加重受傷情況嗎?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产精品国产三级国快看| 久久综合国产精品一区二区| b站永久免费看片大全| 日本一卡2卡3卡四卡精品网站| 国产日韩av一区二区在线| 免费看欧美日韩一区二区三区| 松滋市| 日韩av一区二区精品不卡| 亚洲av午夜成人片| 国产精品女人毛片在线看| 亚洲精品一区二区制服| 色一情一乱一伦麻豆| 毛片网站在线观看| 人妻丰满熟妇AV无码区乱| 亚洲一区二区三区18禁| 国产精品人妻熟女男人的天堂| 四虎在线成人免费观看| 极品人妻videosss人妻| 亚洲一区二区三午夜福利| 麻豆国产传媒精品视频| 国产99在线 | 免费| 丰满人妻熟妇乱又伦精品劲| 欧美牲交a欧美牲交aⅴ免费真| 亚洲 欧美 唯美 国产 伦 综合| 国产成人精品无码片区在线观看| 日韩在线观看 一区二区| 少妇人妻真实偷人精品| 人妻系列无码专区免费| 日韩精品专区在线影院重磅| 欧美牲交a欧美牲交aⅴ一| 国产在线无码不卡播放| 久久国产成人精品av| 国产精品推荐视频一区二区| 亚洲av永久无码精品水牛影视| 亚洲男人第一无码av网站| 亚洲顶级裸体av片| 午夜欧美日韩在线视频播放| 97精品国产91久久久久久久| 精品人妻大屁股白浆无码| 日韩成av在线免费观看| 人妻久久久一区二区三区|