![]()
論文第一作者何浩然是香港科技大學博士生,研究方向包括強化學習和基礎模型等,研究目標是通過經驗和獎勵激發超級智能。共同第一作者葉語霄是香港科技大學一年級博士。通訊作者為香港科技大學電子及計算機工程系、計算機科學與工程系助理教授潘玲。
在大語言模型(LLM)的數學推理任務中,基于可驗證獎勵的強化學習(RLVR)已成為提升模型推理能力的重要手段。然而,主流方法如 PPO、GRPO 等仍然依賴為傳統 RL 場景設計的策略梯度更新的學習目標,本質上可以被策略迭代(policy improvement)刻畫,即包含策略評估(policy evaluation)與策略改進(policy improvement)的不斷循環的過程。這些方法常常面臨訓練不穩定、多樣性喪失、調參復雜等問題。
那么對于 LLM 推理任務,有沒有一種更簡潔、更本質的解法?
香港科技大學聯合階躍以及快手等團隊提出了一個令人驚訝的答案:只需對一個完全隨機的策略進行價值評估,就足以找到最優推理路徑。他們由此提出 ROVER(Random Policy Valuation for Diverse Reasoning)以極簡思路顛覆傳統范式,跳過傳統強化學習推理的策略迭代(policy improvement)循環。
ROVER 不僅在多項數學推理基準上顯著超越現有方法,更以「極簡主義」實現高質量與高多樣性兼備的推理生成。
目前,論文、代碼以及模型均已開源。
![]()
- 論文地址:https://arxiv.org/abs/2509.24981
- 論文代碼: https://github.com/tinnerhrhe/ROVER
![]()
在 AIME24、AIME25 以及 HMMT25 等高難度任務上,ROVER 相比于傳統方法大幅提高了 pass@1(+8.2)和 pass@256(+16.8),并且在多種多樣性指標上均達到了新的高度(+17.6%)。并且 ROVER 不需要額外維護價值網絡(value network),也不需要維護基模型(reference model)計算 KL,從而更加輕量。
傳統強化學習的「痛點困局」:迭代復雜,代價高昂
在 LLM 推理優化中,主流方法(如 PPO、GRPO)可以被廣義策略迭代(Generalized Policy Iteration)刻畫 —— 反復執行「策略評估(計算當前策略價值,如估計優勢函數 advantage)」與「策略改進(更新策略 [數學公式])」。盡管這些方法能提升性能,卻存在核心痛點:
- 訓練穩定性差:優化目標「非定常」,模型易崩潰。最近的工作通過疊加復雜技巧如 KL 正則約束、裁剪重要性采樣、熵監控等。這些「補丁」讓訓練如履薄冰,稍有不慎就會引發「熵坍塌」(策略多樣性驟降,陷入單一推理路徑)。
- PPO 需維護獨立的價值網絡預測狀態價值,并反復執行策略迭代:GRPO 等方法也需要維護基模型(reference model)計算 KL。這種「重資產」模式,加重了 RL 優化的計算開銷。
- 推理多樣性流失:為質量犧牲探索,pass@k 性能飽和。基于獎勵最大化的傳統強化學習方法會使模型過度追求單次推理正確率,犧牲了策略探索能力 —— 模型只會生成少數幾種推理路徑,犧牲了 pass@k(多次推理覆蓋更多可行解的能力)。
ROVER 的「極簡革命」:隨機策略的 Q 值足以指導最優決策
研究團隊首先指出,大語言模型推理任務可被建模為有限時域馬爾可夫決策過程(MDP),具備以下關鍵特性:
- 確定性狀態轉移;
- 樹狀結構(每個狀態有唯一父節點,不存在不相交子樹);
- 二元稀疏獎勵(正確 / 錯誤)。
這與傳統 RL 任務(如 Atari 游戲、機器人控制)中常見的隨機性狀態轉移、循環圖結構、中間獎勵等復雜設定截然不同。
「我們是否在用過于復雜的工具,解決一個結構上更簡單的問題?」—— 這成為 ROVER 研究的出發點。
在這一簡單結構中,研究團隊證明了一個顛覆性結論:均勻隨機策略的 Q 值,直接指向最優策略。
![]()
![]()
![]()
因此,策略學習過程可以簡化為下圖形式。
![]()
ROVER 算法流程:三步極簡,免去迭代
(1)Q 值估計:
![]()
(2)策略構建:
![]()
(3)訓練目標:
在實際實現中,ROVER 還引入了:
![]()
這種「自監督」式參數化,讓模型學習「相對改進」而非「絕對價值」,既減少計算量,又提升穩定性。
![]()
ROVER 的損失函數可以表示為
![]()
算法偽代碼如下
![]()
實驗結果:全面領先,多樣性顯著提升
研究團隊在數學推理基準(AIME24/25、HMMT25、AMC、MATH 等)、Countdown 任務以及 O.O.D. 任務 GPQA-diamond 上驗證 ROVER,覆蓋 Qwen3-8B/4B、DeepSeek-R1-1.5B 等模型,結果堪稱「降維打擊」:
1. 數學競賽任務:pass@1 與 pass@k 雙突破
在 Qwen3-8B-Base 模型上,ROVER 的 pass@1 在 AIME24 達 30.6(比最佳基線 DAPO 高 19.1 分);在 HMMT25 任務中,pass@1 從基線最高 7.1 躍升至 14.6(提升 106%)。
![]()
更關鍵的是 pass@k 性能:傳統 RL 方法(如 GRPO)的 pass@k 隨 k 增大迅速飽和,而ROVER 在 pass@256 上也能與基線拉開明顯差距,展現持續探索能力。
![]()
2. 策略多樣性:比基線高 17.6%,覆蓋更多解題路徑
采用 LLM-as-Judge 方法評判所有方法生成的正確答案的推理內容多樣性,ROVER 訓練的策略多樣性比基線平均提升 +17.6%,在 AIME24 上發現更多獨特解題路徑。在其他多樣性指標如余弦距離(cosine distance)與利用率(utility)等,ROVER 在不同溫度下仍表現出一致的高多樣性。
受益于多樣性的提升,ROVER 在 GPQA-diamond 等與數學無關的 O.O.D 任務上也表現最佳。
![]()
3. 案例展示:ROVER 發現全新解法
通過「策略數量」指標(同一問題生成的不同推理路徑數)評估,ROVER 在各個任務上均能發現更多的解題策略。如下圖所示,在「2x3 網格數字排列」問題中,基模型與 GRPO 均僅發現 2 種策略,而 ROVER 可以發現 4 種(包括「隔板法」「容斥原理」等不同數學工具)。
![]()
啟示與展望
ROVER 的提出,不僅是一次技術突破,更是一次方法論的反思:在某些結構化任務中,簡化而非復雜化,才是推進性能的關鍵。「Simplicity is the ultimate sophistication.」 —— ROVER 這一基于簡單隨機策略的新方法,詮釋了達芬奇這句名言在 AI 時代的新內涵。
更多方法細節與實驗分析請見原論文。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.