<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      英偉達(dá)幫你省錢,讓大模型推理「短而精」,速度快5倍

      0
      分享至



      大模型推理到底要不要「長(zhǎng)篇大論」?過(guò)去一年,OpenAI o 系列、DeepSeek-R1、Qwen 等一系列推理模型,把「長(zhǎng)鏈思維」玩到極致:答案更準(zhǔn)了,但代價(jià)是推理鏈越來(lái)越長(zhǎng)、Token 消耗爆炸、響應(yīng)速度驟降。

      如果 scale-up 長(zhǎng)鏈思維是通往 AGI 的路徑,那么現(xiàn)有思維鏈的冗長(zhǎng)問(wèn)題是我們亟待解決的。

      那么,能不能讓模型「少說(shuō)廢話」,既快又準(zhǔn)?

      過(guò)去的嘗試大多失敗:各種復(fù)雜的長(zhǎng)度懲罰(Length Penalty)要么讓模型亂答,要么訓(xùn)練不穩(wěn)定,結(jié)果就是效率提升了,準(zhǔn)確率卻掉了。

      現(xiàn)在,英偉達(dá)研究院的最新研究給出了答案:關(guān)鍵不在于設(shè)計(jì)多復(fù)雜的懲罰,而在于用對(duì)強(qiáng)化學(xué)習(xí)優(yōu)化方法。



      • 論文標(biāo)題:DLER: Doing Length pEnalty Right — reinforcement learning for more concise and efficient reasoning
      • 論文鏈接: https://arxiv.org/html/2510.15110v1
      • 項(xiàng)目主頁(yè): https://nvlabs.github.io/DLER/



      DLER 來(lái)了!推理模型的「減長(zhǎng)秘籍」


      DLER 首先是細(xì)致及全面了分析了引入長(zhǎng)度懲罰之后出現(xiàn)的新的強(qiáng)化學(xué)習(xí)訓(xùn)練問(wèn)題,包括:

      • Reward 信號(hào)方差增大
      • 「Aha Moment」詞不當(dāng)處理帶來(lái)的熵塌縮
      • 訓(xùn)練信號(hào)過(guò)度稀疏 (剛開(kāi)始訓(xùn)練的時(shí)候大部分生成都超過(guò)了預(yù)設(shè)長(zhǎng)度)

      對(duì)于這些問(wèn)題,DLER 提出了一套簡(jiǎn)單卻強(qiáng)大的強(qiáng)化學(xué)習(xí)訓(xùn)練配方:

      • Advantage normalization with local mean and batch std:替代 GRPO,穩(wěn)定訓(xùn)練信號(hào),避免因截?cái)鄳土P帶來(lái)的高方差。
      • Higher clip:提升高熵探索,防止模型「思想僵化」。
      • Dynamic sampling:丟掉無(wú)效樣本,聚焦真正有價(jià)值的推理路徑。
      • Truncation penalty:最簡(jiǎn)單的「截?cái)鄳土P」,不給超長(zhǎng)輸出任何獎(jiǎng)勵(lì)。

      基于 DLER 這套訓(xùn)練方法,得到的模型結(jié)果令人震驚。新模型產(chǎn)生的推理長(zhǎng)度竟然可以減少 70% 以上,但準(zhǔn)確率完全保持。在 AIME-24 數(shù)學(xué)基準(zhǔn)上,DLER-Qwen-R1-7B 平均僅用 3230 Tokens 就達(dá)到 55.6% 準(zhǔn)確率,而 DeepSeek-R1-7B 要花 13241 Tokens 才能做到 55.4%。



      DLER 不僅實(shí)現(xiàn)了回復(fù)問(wèn)題更短的輸出,更是從另外角度增加了每 token 的智能含量。 在同樣的推理時(shí)間內(nèi),相比于傳統(tǒng)的推理模型只能生成一條冗長(zhǎng)推理,DLER 模型能并行生成幾十條簡(jiǎn)明推理,最終準(zhǔn)確率比 DeepSeek-R1 高出近 50%。這一實(shí)驗(yàn)也意味著高效推理才是 Test-time Scaling 的關(guān)鍵。

      關(guān)鍵發(fā)現(xiàn)


      DLER 的研究揭示了幾個(gè)顛覆性結(jié)論:

      • 推理效率的提升,不取決于懲罰設(shè)計(jì)的復(fù)雜度,而取決于優(yōu)化算法的選擇。
      • 過(guò)去大家以為 RL 長(zhǎng)度懲罰「必然掉準(zhǔn)確率」,其實(shí)只是因?yàn)閮?yōu)化方法沒(méi)選對(duì)。
      • 簡(jiǎn)單的截?cái)鄳土P + 正確的優(yōu)化器,就能讓模型學(xué)會(huì)「短而精」的思考方式。

      更令人驚喜的是,DLER 不僅適用于小模型,在大模型上同樣奏效。研究團(tuán)隊(duì)還提出了權(quán)重選擇性合并(magnitude-selective weight merging),解決了大模型用公開(kāi)數(shù)據(jù)微調(diào)時(shí)的性能下降問(wèn)題:既能恢復(fù)全部準(zhǔn)確率,又能保持近一半的長(zhǎng)度壓縮。

      總結(jié)


      這項(xiàng)來(lái)自 NVIDIA 的最新工作,讓我們重新認(rèn)識(shí)了推理模型的未來(lái)方向。首先,推理模型不能只是一味拉長(zhǎng)推理鏈條,而是需要更聰明、更高效地思考。其次,通過(guò) DLER,模型能以更少的 Tokens、更短的時(shí)間,做到更高的準(zhǔn)確率。 如果說(shuō)之前的研究 ProRL 讓模型「開(kāi)竅」,那么 DLER 就是幫模型「瘦身健身」,讓它們更快、更強(qiáng)、更實(shí)用。未來(lái)在實(shí)際部署中,DLER 無(wú)疑會(huì)成為讓推理模型真正落地的關(guān)鍵技術(shù)之一。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      記者:多位高管對(duì)莫蘭特不感興趣,他可能只能換另一位問(wèn)題球星

      記者:多位高管對(duì)莫蘭特不感興趣,他可能只能換另一位問(wèn)題球星

      懂球帝
      2025-11-05 08:13:26
      劉強(qiáng)東問(wèn)蔡磊錢夠嗎?蔡哽咽:兒子才1歲!隨后劉的決定令蔡淚崩

      劉強(qiáng)東問(wèn)蔡磊錢夠嗎?蔡哽咽:兒子才1歲!隨后劉的決定令蔡淚崩

      瑤卿文史
      2025-10-29 22:56:09
      TVB資深演員林尚武昨日因病離世,享年75歲,曾演出94年版《射雕英雄傳》的丘處機(jī)被大眾所喜愛(ài)

      TVB資深演員林尚武昨日因病離世,享年75歲,曾演出94年版《射雕英雄傳》的丘處機(jī)被大眾所喜愛(ài)

      極目新聞
      2025-11-05 11:53:54
      臺(tái)灣舉行大閱兵,場(chǎng)景太凄涼了

      臺(tái)灣舉行大閱兵,場(chǎng)景太凄涼了

      遠(yuǎn)方青木
      2025-11-05 00:12:54
      茅臺(tái)價(jià)格創(chuàng)新低!1499元零售價(jià)都守不住了?

      茅臺(tái)價(jià)格創(chuàng)新低!1499元零售價(jià)都守不住了?

      帥真商業(yè)
      2025-11-04 18:11:47
      男子求見(jiàn)李嘉誠(chéng)被拒,大鬧長(zhǎng)江集團(tuán)中心:潑紅漆、打傷保安被捕

      男子求見(jiàn)李嘉誠(chéng)被拒,大鬧長(zhǎng)江集團(tuán)中心:潑紅漆、打傷保安被捕

      都市快報(bào)橙柿互動(dòng)
      2025-11-04 22:58:04
      突發(fā)!神舟二十號(hào)飛船遭太空垃圾撞擊,將推遲返回!問(wèn)題大不大?

      突發(fā)!神舟二十號(hào)飛船遭太空垃圾撞擊,將推遲返回!問(wèn)題大不大?

      科普大世界
      2025-11-05 11:06:27
      被免職7天,吳玉培官宣落馬

      被免職7天,吳玉培官宣落馬

      新京報(bào)政事兒
      2025-11-05 10:51:51
      判處死刑!緬北白應(yīng)蒼昔日炫富張狂猶在眼前,今血債血償報(bào)應(yīng)臨頭

      判處死刑!緬北白應(yīng)蒼昔日炫富張狂猶在眼前,今血債血償報(bào)應(yīng)臨頭

      可達(dá)鴨面面觀
      2025-11-04 13:26:12
      潘石屹再次預(yù)判我國(guó)樓市,不出意外,未來(lái)3年樓市將迎來(lái)“三大走向”

      潘石屹再次預(yù)判我國(guó)樓市,不出意外,未來(lái)3年樓市將迎來(lái)“三大走向”

      亞哥談古論今
      2025-11-03 20:27:36
      比亞迪和華為的難題,比想象中更糟

      比亞迪和華為的難題,比想象中更糟

      大佬灼見(jiàn)
      2025-11-04 12:59:33
      香港資深演員林尚武去世,終年75歲

      香港資深演員林尚武去世,終年75歲

      極目新聞
      2025-11-05 11:53:54
      國(guó)臺(tái)辦:對(duì)于迫害大陸配偶的“臺(tái)獨(dú)”幫兇爪牙,我們決不輕饒

      國(guó)臺(tái)辦:對(duì)于迫害大陸配偶的“臺(tái)獨(dú)”幫兇爪牙,我們決不輕饒

      環(huán)球網(wǎng)資訊
      2025-11-05 11:10:12
      中產(chǎn)破防!一年30萬(wàn)學(xué)費(fèi)的國(guó)際學(xué)校,竟成最大“雷區(qū)”

      中產(chǎn)破防!一年30萬(wàn)學(xué)費(fèi)的國(guó)際學(xué)校,竟成最大“雷區(qū)”

      青眼財(cái)經(jīng)
      2025-11-03 18:49:39
      王家衛(wèi)事件再次升級(jí)!陪吃陪睡只是冰山一角,可憐了這些明星!

      王家衛(wèi)事件再次升級(jí)!陪吃陪睡只是冰山一角,可憐了這些明星!

      阿傖說(shuō)事
      2025-11-05 10:05:42
      江西紀(jì)委:62歲柏林被查

      江西紀(jì)委:62歲柏林被查

      魯中晨報(bào)
      2025-11-05 13:07:01
      中國(guó)正經(jīng)歷一場(chǎng)財(cái)富大轉(zhuǎn)移?最富群體是退休老人,年輕人“壓力山大”

      中國(guó)正經(jīng)歷一場(chǎng)財(cái)富大轉(zhuǎn)移?最富群體是退休老人,年輕人“壓力山大”

      小蘿卜絲
      2025-11-05 11:11:28
      大冷門!快船對(duì)飆衛(wèi)冕冠軍:?jiǎn)魏斯?2+5夢(mèng)回巔峰,奇兵轟15分

      大冷門!快船對(duì)飆衛(wèi)冕冠軍:?jiǎn)魏斯?2+5夢(mèng)回巔峰,奇兵轟15分

      體壇小李
      2025-11-05 13:24:31
      開(kāi)拓者官方:楊瀚森被下放至G聯(lián)賽,隨混音隊(duì)完成今日訓(xùn)練后將被召回

      開(kāi)拓者官方:楊瀚森被下放至G聯(lián)賽,隨混音隊(duì)完成今日訓(xùn)練后將被召回

      懂球帝
      2025-11-05 08:10:07
      湖南李天仇為父報(bào)仇,玩弄仇人妻子10年,復(fù)仇一夜屠盡13口家人

      湖南李天仇為父報(bào)仇,玩弄仇人妻子10年,復(fù)仇一夜屠盡13口家人

      紙鳶奇譚
      2024-08-17 14:22:37
      2025-11-05 13:35:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      11648文章數(shù) 142497關(guān)注度
      往期回顧 全部

      科技要聞

      馬斯克萬(wàn)億美元薪酬投票在即,大股東反對(duì)

      頭條要聞

      牛彈琴:美國(guó)上演極致"流氓外交" 讓西方媒體目瞪口呆

      頭條要聞

      牛彈琴:美國(guó)上演極致"流氓外交" 讓西方媒體目瞪口呆

      體育要聞

      貝克漢姆獲封爵士 曼聯(lián)官方祝賀

      娛樂(lè)要聞

      王家衛(wèi)事件再次升級(jí),可憐了這些明星

      財(cái)經(jīng)要聞

      飛天跌破1700元 茅臺(tái)迎來(lái)最不確定的冬天

      汽車要聞

      內(nèi)飾配置再提升 新款極氪X內(nèi)飾官圖發(fā)布

      態(tài)度原創(chuàng)

      健康
      本地
      旅游
      房產(chǎn)
      數(shù)碼

      超聲探頭會(huì)加重受傷情況嗎?

      本地新聞

      秋顏悅色 | 在榆中,秋天是一場(chǎng)盛大的視覺(jué)交響

      旅游要聞

      連接城市副中心!壩河15公里游船航線進(jìn)入試航階段

      房產(chǎn)要聞

      10億網(wǎng)簽官宣!中海|南海·叁號(hào)院刷爆海口樓市記錄,新品加推在即!

      數(shù)碼要聞

      雙 11 存儲(chǔ)囤貨指南!三星 6 款寶藏好物 + 三重福利,閉眼入

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 狠狠做五月深爱婷婷天天综合 | 久久亚洲精品11p| 97精品伊人久久久大香线蕉| 鲁丝片一区二区三区免费| 亚洲人妻一区二区精品| 动漫AV纯肉无码AV电影网| 在熟睡夫面前侵犯我在线播放| 神马久久亚洲一区 二区| 日本一本无道码日韩精品| 免费观看羞羞视频网站| 国产高清精品在线91| 国产精品国产亚洲看不卡| 亚洲国产精品18久久久久久| 国产无人区码一区二区| 久久人与动人物a级毛片| 亚洲日本精品一区二区| 亚洲色大成网站www久久九九| 视频一区视频二区卡通动漫| 18禁精品一区二区三区| 亚洲人成网站观看在线观看 | 漂亮人妻被强中文字幕久久| 国产av综合一区二区三区| 精品人妻少妇一区二区三区| 产综合无码一区| 久久99日本免费国产精品| 99久久久无码国产精品免费| Y111111国产精品久久久| 国产91麻豆视频免费看| 无码人妻一区二区三区在线视频| av在线播放国产一区| 国产久爱免费精品视频| 丰满老熟妇好大bbbbb| 色欲国产精品一区成人精品| 日韩中文字幕亚洲精品一| 国产91精品丝袜美腿在线| 国产精品白丝久久av网站| 国产精品一线天在线播放| 人妻在线中文字幕| 国产又黄又爽又不遮挡视频 | 综合激情亚洲丁香社区| 久久久久国产精品熟女影院 |