![]()
大模型推理到底要不要「長(zhǎng)篇大論」?過(guò)去一年,OpenAI o 系列、DeepSeek-R1、Qwen 等一系列推理模型,把「長(zhǎng)鏈思維」玩到極致:答案更準(zhǔn)了,但代價(jià)是推理鏈越來(lái)越長(zhǎng)、Token 消耗爆炸、響應(yīng)速度驟降。
如果 scale-up 長(zhǎng)鏈思維是通往 AGI 的路徑,那么現(xiàn)有思維鏈的冗長(zhǎng)問(wèn)題是我們亟待解決的。
那么,能不能讓模型「少說(shuō)廢話」,既快又準(zhǔn)?
過(guò)去的嘗試大多失敗:各種復(fù)雜的長(zhǎng)度懲罰(Length Penalty)要么讓模型亂答,要么訓(xùn)練不穩(wěn)定,結(jié)果就是效率提升了,準(zhǔn)確率卻掉了。
現(xiàn)在,英偉達(dá)研究院的最新研究給出了答案:關(guān)鍵不在于設(shè)計(jì)多復(fù)雜的懲罰,而在于用對(duì)強(qiáng)化學(xué)習(xí)優(yōu)化方法。
![]()
- 論文標(biāo)題:DLER: Doing Length pEnalty Right — reinforcement learning for more concise and efficient reasoning
- 論文鏈接: https://arxiv.org/html/2510.15110v1
- 項(xiàng)目主頁(yè): https://nvlabs.github.io/DLER/

DLER 來(lái)了!推理模型的「減長(zhǎng)秘籍」
DLER 首先是細(xì)致及全面了分析了引入長(zhǎng)度懲罰之后出現(xiàn)的新的強(qiáng)化學(xué)習(xí)訓(xùn)練問(wèn)題,包括:
- Reward 信號(hào)方差增大
- 「Aha Moment」詞不當(dāng)處理帶來(lái)的熵塌縮
- 訓(xùn)練信號(hào)過(guò)度稀疏 (剛開(kāi)始訓(xùn)練的時(shí)候大部分生成都超過(guò)了預(yù)設(shè)長(zhǎng)度)
對(duì)于這些問(wèn)題,DLER 提出了一套簡(jiǎn)單卻強(qiáng)大的強(qiáng)化學(xué)習(xí)訓(xùn)練配方:
- Advantage normalization with local mean and batch std:替代 GRPO,穩(wěn)定訓(xùn)練信號(hào),避免因截?cái)鄳土P帶來(lái)的高方差。
- Higher clip:提升高熵探索,防止模型「思想僵化」。
- Dynamic sampling:丟掉無(wú)效樣本,聚焦真正有價(jià)值的推理路徑。
- Truncation penalty:最簡(jiǎn)單的「截?cái)鄳土P」,不給超長(zhǎng)輸出任何獎(jiǎng)勵(lì)。
基于 DLER 這套訓(xùn)練方法,得到的模型結(jié)果令人震驚。新模型產(chǎn)生的推理長(zhǎng)度竟然可以減少 70% 以上,但準(zhǔn)確率完全保持。在 AIME-24 數(shù)學(xué)基準(zhǔn)上,DLER-Qwen-R1-7B 平均僅用 3230 Tokens 就達(dá)到 55.6% 準(zhǔn)確率,而 DeepSeek-R1-7B 要花 13241 Tokens 才能做到 55.4%。
![]()
DLER 不僅實(shí)現(xiàn)了回復(fù)問(wèn)題更短的輸出,更是從另外角度增加了每 token 的智能含量。 在同樣的推理時(shí)間內(nèi),相比于傳統(tǒng)的推理模型只能生成一條冗長(zhǎng)推理,DLER 模型能并行生成幾十條簡(jiǎn)明推理,最終準(zhǔn)確率比 DeepSeek-R1 高出近 50%。這一實(shí)驗(yàn)也意味著高效推理才是 Test-time Scaling 的關(guān)鍵。
關(guān)鍵發(fā)現(xiàn)
DLER 的研究揭示了幾個(gè)顛覆性結(jié)論:
- 推理效率的提升,不取決于懲罰設(shè)計(jì)的復(fù)雜度,而取決于優(yōu)化算法的選擇。
- 過(guò)去大家以為 RL 長(zhǎng)度懲罰「必然掉準(zhǔn)確率」,其實(shí)只是因?yàn)閮?yōu)化方法沒(méi)選對(duì)。
- 簡(jiǎn)單的截?cái)鄳土P + 正確的優(yōu)化器,就能讓模型學(xué)會(huì)「短而精」的思考方式。
更令人驚喜的是,DLER 不僅適用于小模型,在大模型上同樣奏效。研究團(tuán)隊(duì)還提出了權(quán)重選擇性合并(magnitude-selective weight merging),解決了大模型用公開(kāi)數(shù)據(jù)微調(diào)時(shí)的性能下降問(wèn)題:既能恢復(fù)全部準(zhǔn)確率,又能保持近一半的長(zhǎng)度壓縮。
總結(jié)
這項(xiàng)來(lái)自 NVIDIA 的最新工作,讓我們重新認(rèn)識(shí)了推理模型的未來(lái)方向。首先,推理模型不能只是一味拉長(zhǎng)推理鏈條,而是需要更聰明、更高效地思考。其次,通過(guò) DLER,模型能以更少的 Tokens、更短的時(shí)間,做到更高的準(zhǔn)確率。 如果說(shuō)之前的研究 ProRL 讓模型「開(kāi)竅」,那么 DLER 就是幫模型「瘦身健身」,讓它們更快、更強(qiáng)、更實(shí)用。未來(lái)在實(shí)際部署中,DLER 無(wú)疑會(huì)成為讓推理模型真正落地的關(guān)鍵技術(shù)之一。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.