<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      英偉達幫你省錢,讓大模型推理「短而精」,速度快5倍

      0
      分享至



      大模型推理到底要不要「長篇大論」?過去一年,OpenAI o 系列、DeepSeek-R1、Qwen 等一系列推理模型,把「長鏈思維」玩到極致:答案更準了,但代價是推理鏈越來越長、Token 消耗爆炸、響應速度驟降。

      如果 scale-up 長鏈思維是通往 AGI 的路徑,那么現有思維鏈的冗長問題是我們亟待解決的。

      那么,能不能讓模型「少說廢話」,既快又準?

      過去的嘗試大多失?。焊鞣N復雜的長度懲罰(Length Penalty)要么讓模型亂答,要么訓練不穩定,結果就是效率提升了,準確率卻掉了。

      現在,英偉達研究院的最新研究給出了答案:關鍵不在于設計多復雜的懲罰,而在于用對強化學習優化方法。



      • 論文標題:DLER: Doing Length pEnalty Right — reinforcement learning for more concise and efficient reasoning
      • 論文鏈接: https://arxiv.org/html/2510.15110v1
      • 項目主頁: https://nvlabs.github.io/DLER/



      DLER 來了!推理模型的「減長秘籍」


      DLER 首先是細致及全面了分析了引入長度懲罰之后出現的新的強化學習訓練問題,包括:

      • Reward 信號方差增大
      • 「Aha Moment」詞不當處理帶來的熵塌縮
      • 訓練信號過度稀疏 (剛開始訓練的時候大部分生成都超過了預設長度)

      對于這些問題,DLER 提出了一套簡單卻強大的強化學習訓練配方:

      • Advantage normalization with local mean and batch std:替代 GRPO,穩定訓練信號,避免因截斷懲罰帶來的高方差。
      • Higher clip:提升高熵探索,防止模型「思想僵化」。
      • Dynamic sampling:丟掉無效樣本,聚焦真正有價值的推理路徑。
      • Truncation penalty:最簡單的「截斷懲罰」,不給超長輸出任何獎勵。

      基于 DLER 這套訓練方法,得到的模型結果令人震驚。新模型產生的推理長度竟然可以減少 70% 以上,但準確率完全保持。在 AIME-24 數學基準上,DLER-Qwen-R1-7B 平均僅用 3230 Tokens 就達到 55.6% 準確率,而 DeepSeek-R1-7B 要花 13241 Tokens 才能做到 55.4%。



      DLER 不僅實現了回復問題更短的輸出,更是從另外角度增加了每 token 的智能含量。 在同樣的推理時間內,相比于傳統的推理模型只能生成一條冗長推理,DLER 模型能并行生成幾十條簡明推理,最終準確率比 DeepSeek-R1 高出近 50%。這一實驗也意味著高效推理才是 Test-time Scaling 的關鍵。

      關鍵發現


      DLER 的研究揭示了幾個顛覆性結論:

      • 推理效率的提升,不取決于懲罰設計的復雜度,而取決于優化算法的選擇。
      • 過去大家以為 RL 長度懲罰「必然掉準確率」,其實只是因為優化方法沒選對。
      • 簡單的截斷懲罰 + 正確的優化器,就能讓模型學會「短而精」的思考方式。

      更令人驚喜的是,DLER 不僅適用于小模型,在大模型上同樣奏效。研究團隊還提出了權重選擇性合并(magnitude-selective weight merging),解決了大模型用公開數據微調時的性能下降問題:既能恢復全部準確率,又能保持近一半的長度壓縮。

      總結


      這項來自 NVIDIA 的最新工作,讓我們重新認識了推理模型的未來方向。首先,推理模型不能只是一味拉長推理鏈條,而是需要更聰明、更高效地思考。其次,通過 DLER,模型能以更少的 Tokens、更短的時間,做到更高的準確率。 如果說之前的研究 ProRL 讓模型「開竅」,那么 DLER 就是幫模型「瘦身健身」,讓它們更快、更強、更實用。未來在實際部署中,DLER 無疑會成為讓推理模型真正落地的關鍵技術之一。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      事實證明,“消失”多年的清華才女武亦姝,證實了董卿當年沒說錯

      事實證明,“消失”多年的清華才女武亦姝,證實了董卿當年沒說錯

      千言娛樂記
      2025-09-25 20:27:56
      放棄洋帥!足協做出重大決定,國足主帥四選一,一人手握兩大優勢

      放棄洋帥!足協做出重大決定,國足主帥四選一,一人手握兩大優勢

      籃球圈里的那些事
      2025-11-05 14:02:52
      阿森納激活 “世界最佳九號”!阿爾特塔再遭質疑

      阿森納激活 “世界最佳九號”!阿爾特塔再遭質疑

      奶蓋熊本熊
      2025-11-05 12:48:54
      為了防止客人穿過退,店家只能這樣干了:給衣服裝密碼鎖!

      為了防止客人穿過退,店家只能這樣干了:給衣服裝密碼鎖!

      夜深愛雜談
      2025-11-04 21:47:20
      國務院臺辦新任發言人、港澳局局長張晗亮相

      國務院臺辦新任發言人、港澳局局長張晗亮相

      政知新媒體
      2025-11-05 10:26:10
      王家衛劇組在陜西榆林組團Piao娼?

      王家衛劇組在陜西榆林組團Piao娼?

      華人星光
      2025-11-05 11:53:54
      央媒評動力電池路線單一將阻礙中國新能源發展,專家強調三元鋰與磷酸鐵鋰需并行研發

      央媒評動力電池路線單一將阻礙中國新能源發展,專家強調三元鋰與磷酸鐵鋰需并行研發

      澎湃新聞
      2025-11-05 14:22:10
      A股:不用等周四開盤,不出意外的話,明天或將這樣變化

      A股:不用等周四開盤,不出意外的話,明天或將這樣變化

      財經大拿
      2025-11-05 13:36:42
      司機在口袋里養鸚鵡半月,開車間隙逗玩,沒想到身體出事了!醫生提醒:潛伏期最長45天

      司機在口袋里養鸚鵡半月,開車間隙逗玩,沒想到身體出事了!醫生提醒:潛伏期最長45天

      FM93浙江交通之聲
      2025-11-04 20:09:22
      魔鬼賽程!阿森納后面將陸續迎戰桑德蘭、熱刺、拜仁、切爾西

      魔鬼賽程!阿森納后面將陸續迎戰桑德蘭、熱刺、拜仁、切爾西

      懂球帝
      2025-11-05 14:43:13
      毛主席視察天津時想見李銀橋,得知他已經入獄,偉人只說了2個字

      毛主席視察天津時想見李銀橋,得知他已經入獄,偉人只說了2個字

      南書房
      2025-09-28 23:01:03
      快船107-126雷霆 球員評價:3人優秀,2人及格,4人崩盤

      快船107-126雷霆 球員評價:3人優秀,2人及格,4人崩盤

      籃球資訊達人
      2025-11-05 15:04:24
      《雪中悍刀行2》騰訊預熱,張若昀大男主,原班人馬回歸意義不大

      《雪中悍刀行2》騰訊預熱,張若昀大男主,原班人馬回歸意義不大

      妙知
      2025-11-04 10:34:03
      暴跌,熔斷!剛剛,大跳水

      暴跌,熔斷!剛剛,大跳水

      新浪財經
      2025-11-05 10:31:00
      關于爸媽的瓜能有多炸裂?網友:這擱古代都是浸豬籠的大罪??!

      關于爸媽的瓜能有多炸裂?網友:這擱古代都是浸豬籠的大罪?。?/a>

      解讀熱點事件
      2025-11-02 14:48:17
      女性出軌率最高的幾大職業

      女性出軌率最高的幾大職業

      微微熱評
      2025-11-04 12:27:00
      許婧39歲生日美照曝光,外籍帥老公貼身相伴,這甜蜜度直接拉滿

      許婧39歲生日美照曝光,外籍帥老公貼身相伴,這甜蜜度直接拉滿

      鄭丁嘉話
      2025-11-04 10:41:50
      北京這一夜,秦海璐腫了,蔣欣瘦成皮包骨,卻被66歲的她驚艷了

      北京這一夜,秦海璐腫了,蔣欣瘦成皮包骨,卻被66歲的她驚艷了

      有范又有料
      2025-11-05 10:41:30
      蔣介石臨終前告訴蔣經國:我這一生只敬佩一人,畏懼兩人!

      蔣介石臨終前告訴蔣經國:我這一生只敬佩一人,畏懼兩人!

      浪子阿邴聊體育
      2025-11-01 10:57:22
      想的挺美——哈馬斯要求豁免躲藏在加沙隧道中的恐怖分子

      想的挺美——哈馬斯要求豁免躲藏在加沙隧道中的恐怖分子

      老王說正義
      2025-11-04 00:05:34
      2025-11-05 17:43:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11655文章數 142498關注度
      往期回顧 全部

      科技要聞

      大轉彎!特朗普再提名馬斯克盟友任NASA局長

      頭條要聞

      足球報:邵佳一出任國足新帥 將攜外籍助教上任

      頭條要聞

      足球報:邵佳一出任國足新帥 將攜外籍助教上任

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發心臟病去世

      財經要聞

      中方官宣!對美關稅,調整!

      汽車要聞

      智己LS9入局"9系"混戰 全尺寸SUV市場迎來新變量

      態度原創

      本地
      游戲
      時尚
      藝術
      家居

      本地新聞

      秋顏悅色 | 在榆中,秋天是一場盛大的視覺交響

      知名游戲新作Steam國區好評率僅4%!玩家噴爆了

      壞了,看到劇本殺鼻祖了!

      藝術要聞

      院士親自下場“把關”!溫州園博園山水中國館,預計年底建成!

      家居要聞

      別樣府院 暢享詩意生活

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 成人毛片一区二区| 亚洲成a人无码av波多野| 十八禁国产一区二区三区| 久久亚洲AV成人网站玖玖| 翘臀少妇被扒开屁股日出水爆乳| 九九热免费在线播放视频| 护士张开腿被奷日出白浆| 国产成人精品无码专区| 日韩区中文字幕在线观看| 免费无码成人AV片在线| 成av免费大片黄在线观看| 久久久久蜜桃精品成人片公司| 116美女极品a级毛片| 欧美性受xxxx黑人猛交| 狠狠久久五月综合色和啪| 国内精品伊人久久久久AV一坑 | 西昌市| 国产福利深夜在线播放| 亚洲男人第一无码av网站| 两个人日本www免费版| 国产成人AV男人的天堂| 中文字幕色偷偷人妻久久| 亚洲av色夜色精品一区| a级国产乱理伦片在线观看al| 国产不卡av一区二区| 乱60一70归性欧老妇| 精品久久久无码人妻中文字幕| 色悠悠国产精品免费观看| 精品久久久久久无码中文野结衣| 91色老久久精品偷偷性色| 777奇米四色成人影视色区| 国产免费无遮挡吃奶视频| 国产日本一区二区三区久久 | 亚洲午夜久久久影院伊人| 一区二区三区四区激情视频| 成年女人免费碰碰视频| 女人张开腿让男人桶爽| 成人免费AA片在线观看| 韩国三级网一区二区三区| 国产精品无码无卡在线播放| 欧美 亚洲 另类 丝袜 自拍 动漫|