網易首頁 > 網易號 > 正文申請入駐

以判別式監督學習強化推理LLM，解決難度偏差和熵崩塌難題

2025-10-28 11:14:55　來源: 機器之心Pro

北京舉報

分享至

作者介紹：德州農工大學博士生李港，專注于設計和應用高效算法到大規模機器學習和人工智能任務，包括增強大型基礎模型的后訓練算法、對抗性魯棒學習算法和分布魯棒性學習算法。曾發表數篇論文在 NeurIPS、ICML、KDD 等頂會，并作為主要貢獻者之一發布了針對不平衡分類任務的知名軟件包 LibAUC。

DeepSeek-R1 的成功吸引了人們對群體相對策略優化（GRPO）作為大型推理模型（LRM）強化學習方法的廣泛關注。

在本文中，作者分析了二元獎勵（binary reward）設置下的 GRPO 優化目標，發現了由其群體相對優勢函數引起的問題難度偏差的固有局限性，并且揭示了 GRPO 與傳統判別式監督學習方法之間的聯系。

基于這些分析發現，作者提出了一個新穎的判別式約束優化（DisCO）框架來強化大型推理模型。該框架基于判別式學習的基本原則：增加正確答案的得分，同時減少錯誤答案的得分。

與 GRPO 及其變體相比，DisCO 具有以下優勢：

它通過采用判別式優化目標完全消除了難度偏差
通過使用非裁剪評分函數和約束優化方法，解決了 GRPO 及其變體的熵不穩定性，得到了長期穩定的訓練動態；
它允許結合先進的判別式學習技術來解決數據不平衡問題，例如在訓練過程中一些問題的錯誤答案遠遠多于正確答案。

在增強大型模型的數學推理能力方面的實驗表明，DisCO 大幅優于 GRPO 及其改進版本（如 DAPO），在 1.5B 模型的六個基準任務中，平均增益比 GRPO 高 7%，比 DAPO 高 6%。值得注意的是，最大響應長度（max response length）為8k 的 DisCO甚至優于最大響應長度為 32k 的 GRPO。

論文以「5，5，5，5」的高分被 NeurIPS 2025 接收。

論文標題：DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization
論文地址：https://arxiv.org/abs/2505.12366
開源模型地址：https://huggingface.co/collections/ganglii/disco-681b705decb9979e65614d65
GitHub 地址：https://github.com/Optimization-AI/DisCO

GRPO 的難度偏差問題分析

GRPO 的核心思想在于對輸入問題 q 生成多個輸出，并定義群體相對優勢函數。當采用期望形式而非經驗平均時，其優化目標為：

其中：

從上面的變式分析中，作者有兩個重要發現：

1. 與判別式監督學習的聯系

2. 難度偏差（Difficulty Bias）

提出方法：判別式強化學習

1. 判別式目標函數（類似 AUC 優化）

基于上述與 AUC 最大化聯系的分析發現，作者直接從判別式學習的原則重新設計了新的判別式強化學習框架：

為了避免其他研究發現的由裁剪操作引起的熵崩塌現象，作者設計選擇非裁剪評分函數，例如

2. 基于 DRO 的判別式目標函數（類似局部 AUC 優化）

基于判別式學習原則設計目標函數的一個優點是能夠利用文獻中先進監督學習技術來改進訓練。推理模型的強化學習微調的一個關鍵挑戰就是稀疏獎勵，這導致答案生成的不平衡。具體來說，對于一些問題，錯誤答案的輸出的數量可能大大超過正確答案的數量，這反映了一個經典的數據不平衡問題。這個問題在判別式學習領域中得到了廣泛的研究。

為了解決這個問題，作者利用局部 AUC 優化設計了分布魯棒性優化（DRO）目標：

3. 約束優化（穩定訓練）

為了穩定訓練，作者借鑒 TRPO 中的信任域思想，加入 KL 散度約束，形成以下優化問題：

不同于 TRPO 的二階優化方法，作者采用近期發展的一種非凸不等式約束優化策略，將約束替換為平滑的方形鉸鏈懲罰項 (squred hinge penalty)：

實驗結果與分析

測試效果對比

作者采用平均 16 次輸出的 Pass@1 作為評價指標，在六個數學基準數據集上評估了 DisCO 和其他基線方法。

從下表觀察到，作者提出的 DisCO 方法始終顯著優于其他基線方法。值得注意的是，訓練和推理長度均為 8k 的 DisCO （log-L）比 GRPO 平均提高了 7％，超過了以最大 24k 長度訓練并以 32k 長度評估的 DeepScaleR-1.5B-Preview。在 7B 模型實驗中，DisCO 也大幅優于所有基線方法，比 GRPO 平均提高了 3.5％。

在上面這張表格中，作者展示了多種強化學習方法在 1.5B 模型上的效果對比。作者也加入了 OpenAI 的 o1-preview 模型作為參考基線。表中的 MRL（Max Response Length）表示訓練或測試時使用的最大響應長度，限制模型能生成多長的推理結果。其中用陰影標注的模型，是其他團隊所訓練的成果，相應的指標也來自他們的原始論文或 DeepScalaR 項目。除了這些以外，其余結果要么來自現有模型的直接評估，要么是基于不同方法訓練后得到的結果。值得注意的是，表格下半部分的所有方法，都是基于相同的數據集（DeepScaleR），對 DeepSeek-R1-Distill-Qwen-1.5B 模型進行微調的結果。其中，DS 是 DeepSeek-R1 的縮寫，DSR 是 DeepScalaR 的縮寫。

訓練動態對比

隨著大規模強化學習訓練成為改進推理模型的核心技術，學習算法的穩定性至關重要，因為學習穩定性決定了學習算法是否適用于大規模訓練。作者從訓練獎勵和生成熵的角度比較了不同方法的訓練動態。

從下圖對 1.5B 和 7B 模型進行微調的實驗中，我們可以看到，由于 GRPO、GRPO-ER、Dr. GRPO 的熵崩塌和 DAPO 的熵過度增長，它們都只能獲得早熟的確定性策略或高度隨機的策略，所有基線都出現了過早飽和。使用 KL 散度正則化的 TRPA 在后面的步驟中也觀察到不穩定的生成熵。

相比之下，作者提出的 DisCO 使用兩種非裁剪評分函數的方法最為穩定，訓練獎勵不斷增加，生成熵保持相對穩定。

上圖展示不同方法在訓練過程中的動態表現：左邊兩張圖展示的是在訓練 1.5B 模型時的訓練情況，右邊兩張圖則對應于訓練 7B 模型。圖 (a) 和 (c) 展示了訓練獎勵隨訓練步數的變化情況，獎勵是對每一步中用于訓練的問題所生成答案的平均得分。圖 (b) 和 (d) 展示的是生成結果的熵值（反映輸出的多樣性）隨訓練步數的變化趨勢。

消融實驗

從下圖中可以看到，作者提出的每個組件在 DisCO 的改進中都很重要，其中使用非裁剪評分函數是至關重要的。

總結

在這項工作中，作者提出了一種新的判別式約束優化框架用于強化大型推理模型，避免了難度偏差和熵崩塌問題。數學推理實驗表明，與 GRPO 及其最近的變體相比，本文方法具有顯著的優越性。

雖然這項工作主要關注的是二元獎勵，但是對于非二元獎勵，可以考慮利用監督學習中排序目標函數或者其他新穎的評分函數來進行設計。作者將應用判別式約束優化微調更大的模型或其他推理任務留作后續研究。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.