<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      港科提出新算法革新大模型推理范式:隨機策略估值竟成「神操作」

      0
      分享至



      論文第一作者何浩然是香港科技大學博士生,研究方向包括強化學習和基礎模型等,研究目標是通過經驗和獎勵激發超級智能。共同第一作者葉語霄是香港科技大學一年級博士。通訊作者為香港科技大學電子及計算機工程系、計算機科學與工程系助理教授潘玲。

      在大語言模型(LLM)的數學推理任務中,基于可驗證獎勵的強化學習(RLVR)已成為提升模型推理能力的重要手段。然而,主流方法如 PPO、GRPO 等仍然依賴為傳統 RL 場景設計的策略梯度更新的學習目標,本質上可以被策略迭代(policy improvement)刻畫,即包含策略評估(policy evaluation)與策略改進(policy improvement)的不斷循環的過程。這些方法常常面臨訓練不穩定、多樣性喪失、調參復雜等問題。

      那么對于 LLM 推理任務,有沒有一種更簡潔、更本質的解法?

      香港科技大學聯合階躍以及快手等團隊提出了一個令人驚訝的答案:只需對一個完全隨機的策略進行價值評估,就足以找到最優推理路徑。他們由此提出 ROVER(Random Policy Valuation for Diverse Reasoning)以極簡思路顛覆傳統范式,跳過傳統強化學習推理的策略迭代(policy improvement)循環。

      ROVER 不僅在多項數學推理基準上顯著超越現有方法,更以「極簡主義」實現高質量與高多樣性兼備的推理生成。

      目前,論文、代碼以及模型均已開源。



      • 論文地址:https://arxiv.org/abs/2509.24981
      • 論文代碼: https://github.com/tinnerhrhe/ROVER



      在 AIME24、AIME25 以及 HMMT25 等高難度任務上,ROVER 相比于傳統方法大幅提高了 pass@1(+8.2)和 pass@256(+16.8),并且在多種多樣性指標上均達到了新的高度(+17.6%)。并且 ROVER 不需要額外維護價值網絡(value network),也不需要維護基模型(reference model)計算 KL,從而更加輕量。

      傳統強化學習的「痛點困局」:迭代復雜,代價高昂

      在 LLM 推理優化中,主流方法(如 PPO、GRPO)可以被廣義策略迭代(Generalized Policy Iteration)刻畫 —— 反復執行「策略評估(計算當前策略價值,如估計優勢函數 advantage)」與「策略改進(更新策略 [數學公式])」。盡管這些方法能提升性能,卻存在核心痛點:

      • 訓練穩定性差:優化目標「非定常」,模型易崩潰。最近的工作通過疊加復雜技巧如 KL 正則約束、裁剪重要性采樣、熵監控等。這些「補丁」讓訓練如履薄冰,稍有不慎就會引發「熵坍塌」(策略多樣性驟降,陷入單一推理路徑)。
      • PPO 需維護獨立的價值網絡預測狀態價值,并反復執行策略迭代:GRPO 等方法也需要維護基模型(reference model)計算 KL。這種「重資產」模式,加重了 RL 優化的計算開銷。
      • 推理多樣性流失:為質量犧牲探索,pass@k 性能飽和。基于獎勵最大化的傳統強化學習方法會使模型過度追求單次推理正確率,犧牲了策略探索能力 —— 模型只會生成少數幾種推理路徑,犧牲了 pass@k(多次推理覆蓋更多可行解的能力)。

      ROVER 的「極簡革命」:隨機策略的 Q 值足以指導最優決策

      研究團隊首先指出,大語言模型推理任務可被建模為有限時域馬爾可夫決策過程(MDP),具備以下關鍵特性:

      • 確定性狀態轉移;
      • 樹狀結構(每個狀態有唯一父節點,不存在不相交子樹);
      • 二元稀疏獎勵(正確 / 錯誤)。

      這與傳統 RL 任務(如 Atari 游戲、機器人控制)中常見的隨機性狀態轉移、循環圖結構、中間獎勵等復雜設定截然不同。

      「我們是否在用過于復雜的工具,解決一個結構上更簡單的問題?」—— 這成為 ROVER 研究的出發點。

      在這一簡單結構中,研究團隊證明了一個顛覆性結論:均勻隨機策略的 Q 值,直接指向最優策略。







      因此,策略學習過程可以簡化為下圖形式。



      ROVER 算法流程:三步極簡,免去迭代

      (1)Q 值估計:



      (2)策略構建:



      (3)訓練目標:

      在實際實現中,ROVER 還引入了:



      這種「自監督」式參數化,讓模型學習「相對改進」而非「絕對價值」,既減少計算量,又提升穩定性。



      ROVER 的損失函數可以表示為



      算法偽代碼如下



      實驗結果:全面領先,多樣性顯著提升

      研究團隊在數學推理基準(AIME24/25、HMMT25、AMC、MATH 等)、Countdown 任務以及 O.O.D. 任務 GPQA-diamond 上驗證 ROVER,覆蓋 Qwen3-8B/4B、DeepSeek-R1-1.5B 等模型,結果堪稱「降維打擊」:

      1. 數學競賽任務:pass@1 與 pass@k 雙突破

      在 Qwen3-8B-Base 模型上,ROVER 的 pass@1 在 AIME24 達 30.6(比最佳基線 DAPO 高 19.1 分);在 HMMT25 任務中,pass@1 從基線最高 7.1 躍升至 14.6(提升 106%)。



      更關鍵的是 pass@k 性能:傳統 RL 方法(如 GRPO)的 pass@k 隨 k 增大迅速飽和,而ROVER 在 pass@256 上也能與基線拉開明顯差距,展現持續探索能力。



      2. 策略多樣性:比基線高 17.6%,覆蓋更多解題路徑

      采用 LLM-as-Judge 方法評判所有方法生成的正確答案的推理內容多樣性,ROVER 訓練的策略多樣性比基線平均提升 +17.6%,在 AIME24 上發現更多獨特解題路徑。在其他多樣性指標如余弦距離(cosine distance)與利用率(utility)等,ROVER 在不同溫度下仍表現出一致的高多樣性。

      受益于多樣性的提升,ROVER 在 GPQA-diamond 等與數學無關的 O.O.D 任務上也表現最佳。



      3. 案例展示:ROVER 發現全新解法

      通過「策略數量」指標(同一問題生成的不同推理路徑數)評估,ROVER 在各個任務上均能發現更多的解題策略。如下圖所示,在「2x3 網格數字排列」問題中,基模型與 GRPO 均僅發現 2 種策略,而 ROVER 可以發現 4 種(包括「隔板法」「容斥原理」等不同數學工具)。



      啟示與展望

      ROVER 的提出,不僅是一次技術突破,更是一次方法論的反思:在某些結構化任務中,簡化而非復雜化,才是推進性能的關鍵。「Simplicity is the ultimate sophistication.」 —— ROVER 這一基于簡單隨機策略的新方法,詮釋了達芬奇這句名言在 AI 時代的新內涵。

      更多方法細節與實驗分析請見原論文。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      臺當局放話,大陸不答應條件,明年不來參會,外交部只回2句話

      臺當局放話,大陸不答應條件,明年不來參會,外交部只回2句話

      博覽歷史
      2025-11-05 18:25:26
      上海一大媽走后留700萬,銀行要求本人簽字才給,女兒做法太解氣

      上海一大媽走后留700萬,銀行要求本人簽字才給,女兒做法太解氣

      蘭姐說故事
      2025-03-19 15:00:05
      什么時候吃降壓藥合適?早上空腹能吃嗎?告訴你答案

      什么時候吃降壓藥合適?早上空腹能吃嗎?告訴你答案

      泠泠說史
      2025-11-06 15:45:43
      央視怒批,國務院點名封殺!這幾位蒙騙老百姓的大網紅,徹底涼涼

      央視怒批,國務院點名封殺!這幾位蒙騙老百姓的大網紅,徹底涼涼

      大魚簡科
      2025-09-02 19:34:00
      尚帕尼2罰不中馬刺憾負湖人 這樣的尷尬詹皇魔獸喬治也有過

      尚帕尼2罰不中馬刺憾負湖人 這樣的尷尬詹皇魔獸喬治也有過

      仰臥撐FTUer
      2025-11-06 16:25:07
      鄭麗文再拋重磅承諾,盧秀燕不裝了,吳敦義出手,王鴻薇苦口婆心

      鄭麗文再拋重磅承諾,盧秀燕不裝了,吳敦義出手,王鴻薇苦口婆心

      墨蘭史書
      2025-11-05 12:05:03
      一戰創7紀錄化身三雙魔獸!約基奇劍指連季場均三雙 沖第四個MVP

      一戰創7紀錄化身三雙魔獸!約基奇劍指連季場均三雙 沖第四個MVP

      顏小白的籃球夢
      2025-11-06 12:54:37
      向毛岸英扔下汽油彈的南非飛行員,在51年時獲安慰獎,最后咋樣了

      向毛岸英扔下汽油彈的南非飛行員,在51年時獲安慰獎,最后咋樣了

      抽象派大師
      2025-11-04 08:50:03
      女子水洗貂退貨后續:老板娘起訴了,買家已社會性死亡,底褲被扒

      女子水洗貂退貨后續:老板娘起訴了,買家已社會性死亡,底褲被扒

      觀察鑒娛
      2025-11-06 10:00:08
      貝克漢姆封爵成功!激動流淚!貝嫂眼神殺搶鏡,全家黑裝缺大兒子

      貝克漢姆封爵成功!激動流淚!貝嫂眼神殺搶鏡,全家黑裝缺大兒子

      全球時尚號
      2025-11-06 14:00:05
      明天就立冬啦!老祖宗傳下的“不洗不吃不穿不碰”現在知道還不晚

      明天就立冬啦!老祖宗傳下的“不洗不吃不穿不碰”現在知道還不晚

      朗威游戲說
      2025-11-06 13:16:43
      電商快被小仙女們快逼瘋了?巨型吊牌后續,網上拆吊牌教程已有了

      電商快被小仙女們快逼瘋了?巨型吊牌后續,網上拆吊牌教程已有了

      你食不食油餅
      2025-11-06 14:35:07
      西部倒一!弗拉格練級失敗,獨行俠該如何調整?

      西部倒一!弗拉格練級失敗,獨行俠該如何調整?

      籃球實錄
      2025-11-06 13:42:05
      年羹堯,一個被歷史低估的人物,他究竟有多殘暴你可知道?

      年羹堯,一個被歷史低估的人物,他究竟有多殘暴你可知道?

      小豫講故事
      2025-11-06 06:00:03
      貝克漢姆盼了14年終于獲封爵士頭銜,單膝跪地受封畫面公開,西裝由妻子維多利亞設計

      貝克漢姆盼了14年終于獲封爵士頭銜,單膝跪地受封畫面公開,西裝由妻子維多利亞設計

      極目新聞
      2025-11-05 15:38:00
      往哈馬斯躲藏的地道里灌混凝土,內塔尼亞胡如此“殘暴”?

      往哈馬斯躲藏的地道里灌混凝土,內塔尼亞胡如此“殘暴”?

      山河路口
      2025-11-05 14:11:46
      朝鮮“二號人物”金與正,竟然隱婚多年?她的丈夫至今未露面

      朝鮮“二號人物”金與正,竟然隱婚多年?她的丈夫至今未露面

      大千世界觀
      2025-11-05 16:03:43
      懶懶已成過去式?王思聰奢侈品店購物,一個女生直接坐在他腿上

      懶懶已成過去式?王思聰奢侈品店購物,一個女生直接坐在他腿上

      瘋說時尚
      2025-11-06 14:05:08
      5300億巨頭跌落神壇,海天醬油被消費者打回原形,還救得回來嗎?

      5300億巨頭跌落神壇,海天醬油被消費者打回原形,還救得回來嗎?

      法老不說教
      2025-11-05 17:07:23
      約基奇33+15+16掘金力克熱火 熱巴傷退維金斯22分引3人20+

      約基奇33+15+16掘金力克熱火 熱巴傷退維金斯22分引3人20+

      醉臥浮生
      2025-11-06 12:26:30
      2025-11-06 17:47:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11665文章數 142499關注度
      往期回顧 全部

      科技要聞

      小鵬機器人里藏真人?何小鵬發一鏡到底視頻

      頭條要聞

      孫東旭離開東方甄選 曾因與董宇輝"小作文風波"引爭議

      頭條要聞

      孫東旭離開東方甄選 曾因與董宇輝"小作文風波"引爭議

      體育要聞

      送走兩位全明星,公牛成了東部第一

      娛樂要聞

      “黑料纏身”的白百何 誰給她的勇氣?

      財經要聞

      南銀法巴加速發展背后:資金饑渴癥待解

      汽車要聞

      是我眼花了么?怎么大猩猩都來參加新車發布了?

      態度原創

      藝術
      數碼
      手機
      教育
      親子

      藝術要聞

      預定年度十佳!49歲的舒淇,殺瘋了

      數碼要聞

      10億美元!新版Siri將融入谷歌Gemini大模型,明年上線

      手機要聞

      2025年第三季度,中國手機在印度遭遇了什么?

      教育要聞

      黔南:“石榴籽”抱緊,幸福路同行

      親子要聞

      11月11日 | 陳慧敏督導專題講座,破解迷思,剖析影子老師的角色定位

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产毛a片啊久久久久久保和丸| 中文字幕日韩精品东京热| 国产久免费热视频在线观看| 综合区一区二区三区狠狠| 久久久久久久久久久免费精品| 人妻丝袜无码专区视频网站| 色宅男看片午夜大片啪啪| 亚洲熟妇自偷自拍另类| 泗洪县| 亚洲一区二区三区久久受| 资源新版在线天堂偷自拍| 国产日韩精品一区在线不卡| 久久综合激情网| 日韩精品一卡二卡三卡在线| 亚洲精品不卡av在线播放| 国产人妻高清国产拍精品| 小污女小欲女导航| 国产女人和拘做受视频免费 | 日韩精品有码中文字幕| 亚洲国产精品久久久久秋霞影院| 午夜夜福利一区二区三区| 成人做受120秒试看试看视频| 真实国产精品视频400部| 欧美一区二区三区性视频| 无码国模国产在线观看免费| 亚洲国产精品无码久久久 | 国产精品亚洲片在线观看麻豆| 精品无码国产污污污免费| 免费观看的av在线播放| 国产91精品调教在线播放| 激情综合网激情综合| 久久精品国内一区二区三区| 丰满人妻被黑人猛烈进入| 欧美人与性囗牲恔配| 国产AV影片麻豆精品传媒| 艳妇乳肉豪妇荡乳av无码福利| 亚洲国产成人精品女久久| 国产亚洲精品VA片在线播放| 华人在线亚洲欧美精品| 国产精品日本一区二区不卡视频 | 欧美成人午夜性视频|