網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

英偉達(dá)幫你省錢，讓大模型推理「短而精」，速度快5倍

2025-11-04 13:49:30　來(lái)源: 機(jī)器之心Pro

北京舉報(bào)

分享至

大模型推理到底要不要「長(zhǎng)篇大論」？過(guò)去一年，OpenAI o 系列、DeepSeek-R1、Qwen 等一系列推理模型，把「長(zhǎng)鏈思維」玩到極致：答案更準(zhǔn)了，但代價(jià)是推理鏈越來(lái)越長(zhǎng)、Token 消耗爆炸、響應(yīng)速度驟降。

如果 scale-up 長(zhǎng)鏈思維是通往 AGI 的路徑，那么現(xiàn)有思維鏈的冗長(zhǎng)問(wèn)題是我們亟待解決的。

那么，能不能讓模型「少說(shuō)廢話」，既快又準(zhǔn)？

過(guò)去的嘗試大多失敗：各種復(fù)雜的長(zhǎng)度懲罰（Length Penalty）要么讓模型亂答，要么訓(xùn)練不穩(wěn)定，結(jié)果就是效率提升了，準(zhǔn)確率卻掉了。

現(xiàn)在，英偉達(dá)研究院的最新研究給出了答案：關(guān)鍵不在于設(shè)計(jì)多復(fù)雜的懲罰，而在于用對(duì)強(qiáng)化學(xué)習(xí)優(yōu)化方法。

論文標(biāo)題：DLER: Doing Length pEnalty Right — reinforcement learning for more concise and efficient reasoning
論文鏈接: https://arxiv.org/html/2510.15110v1
項(xiàng)目主頁(yè): https://nvlabs.github.io/DLER/

DLER 來(lái)了！推理模型的「減長(zhǎng)秘籍」

DLER 首先是細(xì)致及全面了分析了引入長(zhǎng)度懲罰之后出現(xiàn)的新的強(qiáng)化學(xué)習(xí)訓(xùn)練問(wèn)題，包括：

Reward 信號(hào)方差增大
「Aha Moment」詞不當(dāng)處理帶來(lái)的熵塌縮
訓(xùn)練信號(hào)過(guò)度稀疏 (剛開(kāi)始訓(xùn)練的時(shí)候大部分生成都超過(guò)了預(yù)設(shè)長(zhǎng)度)

對(duì)于這些問(wèn)題，DLER 提出了一套簡(jiǎn)單卻強(qiáng)大的強(qiáng)化學(xué)習(xí)訓(xùn)練配方：

Advantage normalization with local mean and batch std：替代 GRPO，穩(wěn)定訓(xùn)練信號(hào)，避免因截?cái)鄳土P帶來(lái)的高方差。
Higher clip：提升高熵探索，防止模型「思想僵化」。
Dynamic sampling：丟掉無(wú)效樣本，聚焦真正有價(jià)值的推理路徑。
Truncation penalty：最簡(jiǎn)單的「截?cái)鄳土P」，不給超長(zhǎng)輸出任何獎(jiǎng)勵(lì)。

基于 DLER 這套訓(xùn)練方法，得到的模型結(jié)果令人震驚。新模型產(chǎn)生的推理長(zhǎng)度竟然可以減少 70% 以上，但準(zhǔn)確率完全保持。在 AIME-24 數(shù)學(xué)基準(zhǔn)上，DLER-Qwen-R1-7B 平均僅用 3230 Tokens 就達(dá)到 55.6% 準(zhǔn)確率，而 DeepSeek-R1-7B 要花 13241 Tokens 才能做到 55.4%。

DLER 不僅實(shí)現(xiàn)了回復(fù)問(wèn)題更短的輸出，更是從另外角度增加了每 token 的智能含量。在同樣的推理時(shí)間內(nèi)，相比于傳統(tǒng)的推理模型只能生成一條冗長(zhǎng)推理，DLER 模型能并行生成幾十條簡(jiǎn)明推理，最終準(zhǔn)確率比 DeepSeek-R1 高出近 50%。這一實(shí)驗(yàn)也意味著高效推理才是 Test-time Scaling 的關(guān)鍵。

關(guān)鍵發(fā)現(xiàn)

DLER 的研究揭示了幾個(gè)顛覆性結(jié)論：

推理效率的提升，不取決于懲罰設(shè)計(jì)的復(fù)雜度，而取決于優(yōu)化算法的選擇。
過(guò)去大家以為 RL 長(zhǎng)度懲罰「必然掉準(zhǔn)確率」，其實(shí)只是因?yàn)閮?yōu)化方法沒(méi)選對(duì)。
簡(jiǎn)單的截?cái)鄳土P + 正確的優(yōu)化器，就能讓模型學(xué)會(huì)「短而精」的思考方式。

更令人驚喜的是，DLER 不僅適用于小模型，在大模型上同樣奏效。研究團(tuán)隊(duì)還提出了權(quán)重選擇性合并（magnitude-selective weight merging），解決了大模型用公開(kāi)數(shù)據(jù)微調(diào)時(shí)的性能下降問(wèn)題：既能恢復(fù)全部準(zhǔn)確率，又能保持近一半的長(zhǎng)度壓縮。

總結(jié)

這項(xiàng)來(lái)自 NVIDIA 的最新工作，讓我們重新認(rèn)識(shí)了推理模型的未來(lái)方向。首先，推理模型不能只是一味拉長(zhǎng)推理鏈條，而是需要更聰明、更高效地思考。其次，通過(guò) DLER，模型能以更少的 Tokens、更短的時(shí)間，做到更高的準(zhǔn)確率。如果說(shuō)之前的研究 ProRL 讓模型「開(kāi)竅」，那么 DLER 就是幫模型「瘦身健身」，讓它們更快、更強(qiáng)、更實(shí)用。未來(lái)在實(shí)際部署中，DLER 無(wú)疑會(huì)成為讓推理模型真正落地的關(guān)鍵技術(shù)之一。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.