<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      以判別式監(jiān)督學(xué)習(xí)強化推理LLM,解決難度偏差和熵崩塌難題

      0
      分享至



      作者介紹:德州農(nóng)工大學(xué)博士生李港,專注于設(shè)計和應(yīng)用高效算法到大規(guī)模機器學(xué)習(xí)和人工智能任務(wù),包括增強大型基礎(chǔ)模型的后訓(xùn)練算法、對抗性魯棒學(xué)習(xí)算法和分布魯棒性學(xué)習(xí)算法。曾發(fā)表數(shù)篇論文在 NeurIPS、ICML、KDD 等頂會, 并作為主要貢獻者之一發(fā)布了針對不平衡分類任務(wù)的知名軟件包 LibAUC。

      DeepSeek-R1 的成功吸引了人們對群體相對策略優(yōu)化(GRPO)作為大型推理模型(LRM)強化學(xué)習(xí)方法的廣泛關(guān)注。

      在本文中,作者分析了二元獎勵(binary reward)設(shè)置下的 GRPO 優(yōu)化目標,發(fā)現(xiàn)了由其群體相對優(yōu)勢函數(shù)引起的問題難度偏差的固有局限性,并且揭示了 GRPO 與傳統(tǒng)判別式監(jiān)督學(xué)習(xí)方法之間的聯(lián)系。

      基于這些分析發(fā)現(xiàn),作者提出了一個新穎的判別式約束優(yōu)化(DisCO)框架來強化大型推理模型。該框架基于判別式學(xué)習(xí)的基本原則:增加正確答案的得分,同時減少錯誤答案的得分。

      與 GRPO 及其變體相比,DisCO 具有以下優(yōu)勢:

      1. 它通過采用判別式優(yōu)化目標完全消除了難度偏差
      2. 通過使用非裁剪評分函數(shù)和約束優(yōu)化方法,解決了 GRPO 及其變體的熵不穩(wěn)定性,得到了長期穩(wěn)定的訓(xùn)練動態(tài);
      3. 它允許結(jié)合先進的判別式學(xué)習(xí)技術(shù)來解決數(shù)據(jù)不平衡問題,例如在訓(xùn)練過程中一些問題的錯誤答案遠遠多于正確答案。

      在增強大型模型的數(shù)學(xué)推理能力方面的實驗表明,DisCO 大幅優(yōu)于 GRPO 及其改進版本(如 DAPO),在 1.5B 模型的六個基準任務(wù)中,平均增益比 GRPO 高 7%,比 DAPO 高 6%。值得注意的是,最大響應(yīng)長度(max response length)為8k 的 DisCO甚至優(yōu)于最大響應(yīng)長度為 32k 的 GRPO。

      論文以「5,5,5,5」的高分被 NeurIPS 2025 接收。



      • 論文標題:DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization
      • 論文地址:https://arxiv.org/abs/2505.12366
      • 開源模型地址:https://huggingface.co/collections/ganglii/disco-681b705decb9979e65614d65
      • GitHub 地址:https://github.com/Optimization-AI/DisCO

      GRPO 的難度偏差問題分析

      GRPO 的核心思想在于對輸入問題 q 生成多個輸出,并定義群體相對優(yōu)勢函數(shù)。當(dāng)采用期望形式而非經(jīng)驗平均時,其優(yōu)化目標為:







      其中:



      從上面的變式分析中,作者有兩個重要發(fā)現(xiàn):

      1. 與判別式監(jiān)督學(xué)習(xí)的聯(lián)系



      2. 難度偏差(Difficulty Bias)





      提出方法:判別式強化學(xué)習(xí)

      1. 判別式目標函數(shù)(類似 AUC 優(yōu)化)

      基于上述與 AUC 最大化聯(lián)系的分析發(fā)現(xiàn),作者直接從判別式學(xué)習(xí)的原則重新設(shè)計了新的判別式強化學(xué)習(xí)框架:



      為了避免其他研究發(fā)現(xiàn)的由裁剪操作引起的熵崩塌現(xiàn)象,作者設(shè)計選擇非裁剪評分函數(shù), 例如



      2. 基于 DRO 的判別式目標函數(shù)(類似局部 AUC 優(yōu)化)

      基于判別式學(xué)習(xí)原則設(shè)計目標函數(shù)的一個優(yōu)點是能夠利用文獻中先進監(jiān)督學(xué)習(xí)技術(shù)來改進訓(xùn)練。推理模型的強化學(xué)習(xí)微調(diào)的一個關(guān)鍵挑戰(zhàn)就是稀疏獎勵,這導(dǎo)致答案生成的不平衡。具體來說,對于一些問題,錯誤答案的輸出的數(shù)量可能大大超過正確答案的數(shù)量,這反映了一個經(jīng)典的數(shù)據(jù)不平衡問題。這個問題在判別式學(xué)習(xí)領(lǐng)域中得到了廣泛的研究。

      為了解決這個問題,作者利用局部 AUC 優(yōu)化設(shè)計了分布魯棒性優(yōu)化(DRO)目標:



      3. 約束優(yōu)化(穩(wěn)定訓(xùn)練)

      為了穩(wěn)定訓(xùn)練,作者借鑒 TRPO 中的信任域思想,加入 KL 散度約束,形成以下優(yōu)化問題:



      不同于 TRPO 的二階優(yōu)化方法,作者采用近期發(fā)展的一種非凸不等式約束優(yōu)化策略,將約束替換為平滑的方形鉸鏈懲罰項 (squred hinge penalty):





      實驗結(jié)果與分析

      測試效果對比

      作者采用平均 16 次輸出的 Pass@1 作為評價指標,在六個數(shù)學(xué)基準數(shù)據(jù)集上評估了 DisCO 和其他基線方法。

      從下表觀察到,作者提出的 DisCO 方法始終顯著優(yōu)于其他基線方法。值得注意的是,訓(xùn)練和推理長度均為 8k 的 DisCO (log-L)比 GRPO 平均提高了 7%,超過了以最大 24k 長度訓(xùn)練并以 32k 長度評估的 DeepScaleR-1.5B-Preview。在 7B 模型實驗中,DisCO 也大幅優(yōu)于所有基線方法,比 GRPO 平均提高了 3.5%



      在上面這張表格中,作者展示了多種強化學(xué)習(xí)方法在 1.5B 模型上的效果對比。作者也加入了 OpenAI 的 o1-preview 模型作為參考基線。 表中的 MRL(Max Response Length)表示訓(xùn)練或測試時使用的最大響應(yīng)長度,限制模型能生成多長的推理結(jié)果。 其中用陰影標注的模型,是其他團隊所訓(xùn)練的成果,相應(yīng)的指標也來自他們的原始論文或 DeepScalaR 項目。除了這些以外,其余結(jié)果要么來自現(xiàn)有模型的直接評估,要么是基于不同方法訓(xùn)練后得到的結(jié)果。 值得注意的是,表格下半部分的所有方法,都是基于相同的數(shù)據(jù)集(DeepScaleR),對 DeepSeek-R1-Distill-Qwen-1.5B 模型進行微調(diào)的結(jié)果。其中,DS 是 DeepSeek-R1 的縮寫,DSR 是 DeepScalaR 的縮寫。



      訓(xùn)練動態(tài)對比

      隨著大規(guī)模強化學(xué)習(xí)訓(xùn)練成為改進推理模型的核心技術(shù),學(xué)習(xí)算法的穩(wěn)定性至關(guān)重要,因為學(xué)習(xí)穩(wěn)定性決定了學(xué)習(xí)算法是否適用于大規(guī)模訓(xùn)練。作者從訓(xùn)練獎勵和生成熵的角度比較了不同方法的訓(xùn)練動態(tài)。

      從下圖對 1.5B 和 7B 模型進行微調(diào)的實驗中,我們可以看到,由于 GRPO、GRPO-ER、Dr. GRPO 的熵崩塌和 DAPO 的熵過度增長,它們都只能獲得早熟的確定性策略或高度隨機的策略,所有基線都出現(xiàn)了過早飽和。使用 KL 散度正則化的 TRPA 在后面的步驟中也觀察到不穩(wěn)定的生成熵。

      相比之下,作者提出的 DisCO 使用兩種非裁剪評分函數(shù)的方法最為穩(wěn)定,訓(xùn)練獎勵不斷增加,生成熵保持相對穩(wěn)定。



      上圖展示不同方法在訓(xùn)練過程中的動態(tài)表現(xiàn):左邊兩張圖展示的是在訓(xùn)練 1.5B 模型時的訓(xùn)練情況,右邊兩張圖則對應(yīng)于訓(xùn)練 7B 模型。圖 (a) 和 (c) 展示了訓(xùn)練獎勵隨訓(xùn)練步數(shù)的變化情況,獎勵是對每一步中用于訓(xùn)練的問題所生成答案的平均得分。圖 (b) 和 (d) 展示的是生成結(jié)果的熵值(反映輸出的多樣性)隨訓(xùn)練步數(shù)的變化趨勢。

      消融實驗



      從下圖中可以看到,作者提出的每個組件在 DisCO 的改進中都很重要,其中使用非裁剪評分函數(shù)是至關(guān)重要的。



      總結(jié)

      在這項工作中,作者提出了一種新的判別式約束優(yōu)化框架用于強化大型推理模型,避免了難度偏差和熵崩塌問題。數(shù)學(xué)推理實驗表明,與 GRPO 及其最近的變體相比,本文方法具有顯著的優(yōu)越性。

      雖然這項工作主要關(guān)注的是二元獎勵,但是對于非二元獎勵,可以考慮利用監(jiān)督學(xué)習(xí)中排序目標函數(shù)或者其他新穎的評分函數(shù)來進行設(shè)計。作者將應(yīng)用判別式約束優(yōu)化微調(diào)更大的模型或其他推理任務(wù)留作后續(xù)研究。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      好消息!油價大幅下調(diào),車主們期待油價回歸5元。

      好消息!油價大幅下調(diào),車主們期待油價回歸5元。

      慧眼看世界哈哈
      2025-11-06 05:28:38
      全運會|1:2不敵浙江隊,山東U20男足驚險晉級八強

      全運會|1:2不敵浙江隊,山東U20男足驚險晉級八強

      齊魯壹點
      2025-11-05 22:37:14
      “史上最長”春節(jié)假期來了!連休9天,臘月二十八和除夕均放假

      “史上最長”春節(jié)假期來了!連休9天,臘月二十八和除夕均放假

      紅星新聞
      2025-11-04 17:11:09
      廣州賣房業(yè)主又要遭受暴擊了……

      廣州賣房業(yè)主又要遭受暴擊了……

      樓市前線
      2025-11-05 19:01:11
      大轉(zhuǎn)彎!特朗普再提名馬斯克盟友任NASA局長,曾斥2億美元完成首次商業(yè)太空行走

      大轉(zhuǎn)彎!特朗普再提名馬斯克盟友任NASA局長,曾斥2億美元完成首次商業(yè)太空行走

      紅星新聞
      2025-11-05 13:16:38
      KK園區(qū)詐騙分子開始再就業(yè):熟練工身價暴漲至7萬美金!供不應(yīng)求

      KK園區(qū)詐騙分子開始再就業(yè):熟練工身價暴漲至7萬美金!供不應(yīng)求

      卷史
      2025-11-05 12:05:06
      歐冠復(fù)仇之夜:皇馬飛翼出場 6萬人狂噓!球迷拉橫幅嘲諷

      歐冠復(fù)仇之夜:皇馬飛翼出場 6萬人狂噓!球迷拉橫幅嘲諷

      葉青足球世界
      2025-11-05 07:28:47
      往哈馬斯躲藏的地道里灌混凝土,內(nèi)塔尼亞胡如此“殘暴”?

      往哈馬斯躲藏的地道里灌混凝土,內(nèi)塔尼亞胡如此“殘暴”?

      山河路口
      2025-11-05 14:11:46
      剛剛!山東確認:放寬到38歲

      剛剛!山東確認:放寬到38歲

      瑯琊新聞網(wǎng)
      2025-11-05 08:48:28
      甘肅:李世英,被帶走調(diào)查!(附簡歷)

      甘肅:李世英,被帶走調(diào)查!(附簡歷)

      甘肅圈圈
      2025-11-06 00:10:53
      官宣: 正式閉店!陪伴上海人超70年, 有人哽咽

      官宣: 正式閉店!陪伴上海人超70年, 有人哽咽

      看看新聞Knews
      2025-11-05 20:00:05
      一個禁衛(wèi)軍小頭目,憑什么六年就當(dāng)上了天下兵馬大元帥?

      一個禁衛(wèi)軍小頭目,憑什么六年就當(dāng)上了天下兵馬大元帥?

      地理史觀
      2025-11-04 17:05:31
      上海地鐵老人強坐女生腿上!身份曝光不簡單,警方沉默惹爭議!

      上海地鐵老人強坐女生腿上!身份曝光不簡單,警方沉默惹爭議!

      深析古今
      2025-11-05 09:24:04
      河北小伙娶小12歲烏克蘭絕色美女,結(jié)婚11年后,妻子出軌波蘭農(nóng)民

      河北小伙娶小12歲烏克蘭絕色美女,結(jié)婚11年后,妻子出軌波蘭農(nóng)民

      青史樓蘭
      2025-09-16 10:44:15
      WTA年終總決賽:2-1,阿尼西莫娃逆轉(zhuǎn)斯瓦泰克,贏生死戰(zhàn)壓哨出線

      WTA年終總決賽:2-1,阿尼西莫娃逆轉(zhuǎn)斯瓦泰克,贏生死戰(zhàn)壓哨出線

      越嶺尋蹤
      2025-11-06 02:47:14
      老人強坐女子腿后續(xù):女生曬病例痛哭,細節(jié)曝光,老人手也不老實

      老人強坐女子腿后續(xù):女生曬病例痛哭,細節(jié)曝光,老人手也不老實

      娛樂帝皇丸
      2025-11-06 00:11:34
      上海地鐵“霸腿”老人身份曝光!有網(wǎng)友自稱是鄰居,爆料更多內(nèi)幕

      上海地鐵“霸腿”老人身份曝光!有網(wǎng)友自稱是鄰居,爆料更多內(nèi)幕

      不寫散文詩
      2025-11-06 00:01:13
      00年空姐女神!超模身材+明星臉,這身材顏值真的絕了,你喜歡嗎

      00年空姐女神!超模身材+明星臉,這身材顏值真的絕了,你喜歡嗎

      素然追光
      2025-10-17 02:45:03
      鄭麗文公布第四波人事任命,朱立倫尷尬了,洪秀柱罕見喊話鄭麗文

      鄭麗文公布第四波人事任命,朱立倫尷尬了,洪秀柱罕見喊話鄭麗文

      流云青史
      2025-11-05 22:29:37
      東契奇和里夫斯會出戰(zhàn)嗎?湖人對陣馬刺的傷病報告

      東契奇和里夫斯會出戰(zhàn)嗎?湖人對陣馬刺的傷病報告

      好火子
      2025-11-06 04:32:44
      2025-11-06 07:31:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      11656文章數(shù) 142499關(guān)注度
      往期回顧 全部

      科技要聞

      大轉(zhuǎn)彎!特朗普再提名馬斯克盟友任NASA局長

      頭條要聞

      美國發(fā)射洲際彈道導(dǎo)彈 俄羅斯:俄方不參加軍備競賽

      頭條要聞

      美國發(fā)射洲際彈道導(dǎo)彈 俄羅斯:俄方不參加軍備競賽

      體育要聞

      贏下皇馬,會是利物浦的轉(zhuǎn)折點嗎?

      娛樂要聞

      港星林尚武突發(fā)心臟病去世

      財經(jīng)要聞

      事關(guān)加快建設(shè)金融強國 中央金融辦發(fā)聲

      汽車要聞

      智己LS9入局"9系"混戰(zhàn) 全尺寸SUV市場迎來新變量

      態(tài)度原創(chuàng)

      手機
      房產(chǎn)
      親子
      數(shù)碼
      軍事航空

      手機要聞

      榮耀MagicOS 10內(nèi)測第四批招募:機型名單已公布,你的機型在內(nèi)嗎

      房產(chǎn)要聞

      最新!海南樓市10月熱銷榜單出爐!

      親子要聞

      孩子夾腿觸摸自己不一定都是壞事,但這種情況除外!

      數(shù)碼要聞

      小米POCO X1平板現(xiàn)身Geekbench 搭載驍龍7+ Gen 3

      軍事要聞

      美國“福特”號航母駛往加勒比海

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 久久精品国产88精品久久| 成人网站免费观看永久视频下载| 国产成人人综合亚洲欧美丁香花 | 在线人人车操人人看视频| 亚洲国产天堂久久综合网| 徐水县| 亚洲综合一区二区三区在线| 中文文字幕文字幕亚洲色| 中文字幕理伦午夜福利片| 亚洲午夜精品国产电影在线观看 | 日本欧美一区二区三区在线播放| 欧洲免费一区二区三区视频| 无码免费大香伊蕉在人线国产| 亚洲av第二区国产精品| 2022亚洲男人天堂| 久久亚洲精品人成综合网| 日日躁夜夜躁狠狠久久av| 乱人伦人妻精品一区二区| 国产精品污一区二区三区| 蜜臀视频一区二区在线播放 | 国产精品无码一区二区桃花视频| 成人亚洲一级午夜激情网| 国产精品中文第一字幕| 精品无码一区在线观看| 亚洲天堂成人网在线观看| 成人啪精品视频网站午夜| 日本三级香港三级三级人!妇久| 亚洲精品电影院| 久久人人妻人人做人人爽| 亚洲成人av在线资源网| 欧洲精品色在线观看| www久久只有这里有精品| 国产精品人妻一区二区高| 成人午夜无人区一区二区| 亚洲中文久久久精品无码| 在线 | 国产精品99传媒a| 狠狠色噜噜狠狠狠777米奇小说 | 中文字幕亚洲国产精品| 国产一级av在线播放| 成人欧美日韩一区二区三区| 国产偷窥熟女精品视频大全 |