擴散語言模型新發(fā)現(xiàn)：其計算潛力正在被浪費？

2025-10-30 18:02:30　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

機器之心編輯部

按從左到右的順序依次生成下一個 token 真的是大模型生成方式的最優(yōu)解嗎？最近，越來越多的研究者對此提出質(zhì)疑。其中，有些研究者已經(jīng)轉(zhuǎn)向一個新的方向 —— 掩碼擴散語言模型（MDLM）。

和自回歸（AR）語言模型不同，MDLM 的訓(xùn)練目標是隨機遮蔽序列中的若干位置，模型學(xué)習(xí)去 in-fill（填充）這些被遮蔽位置。這樣訓(xùn)練出來的模型存在諸多優(yōu)勢，如支持任意順序解碼、多 token 并行解碼等。此前有研究表明，MDLM 的這些優(yōu)勢使其在數(shù)獨等邏輯謎題上的表現(xiàn)得到顯著提升。

然而，最近的一篇論文有了一些意外發(fā)現(xiàn)：在數(shù)學(xué)和編碼任務(wù)中，任意順序算法的性能往往不如從左到右采樣，或者表現(xiàn)與之相似，而標準的多 token 解碼會顯著降低性能。即使僅在兩個 token 上進行并行解碼，模型在主流基準任務(wù)上的性能也會顯著下降。

使用 MDLM 進行從左到右的采樣是一種適用于推理和編碼的高效采樣算法。如果沒有 [Arriola et al., 2025] 提出的塊大小（block sizes）來強制形成半自回歸（AR）的從左到右結(jié)構(gòu)，任意順序會顯著影響性能。

MDLM 能夠并行生成多個固定 token，但這會降低準確性。作者使用塊任意順序熵解碼，并行解碼 1 個、2 個、4 個 token。可以看到，除數(shù)獨外，在所有任務(wù)中，即使并行解碼兩個 token 也會導(dǎo)致性能顯著下降。

這一結(jié)果引發(fā)了一個問題：既然 MDLM 在訓(xùn)練時投入了大量額外計算資源以建模所有被掩碼位置的聯(lián)合分布，那么這些額外的計算是否真的物有所值？

為了回答這個問題，研究者探究了如何將這些計算資源重新利用為有意義的推理與采樣能力。他們證明，MDLM 提供了對所有掩碼位置的條件分布的訪問權(quán)限，并具備填充（in-filling）能力，這一特性解鎖了傳統(tǒng) NTP 模型無法輕易實現(xiàn)的新型采樣與后訓(xùn)練（post-training）機制。

首先，研究者展示了 MDLM 的填充能力如何開啟新的模型提示范式。在本文中，他們提出了「提示即填充」（prompting-as-infilling）的方法。與 NTP 模型僅能在序列起始位置添加提示不同，這種方法允許在多個位置添加由用戶指定的上下文。

更具體地，他們提出了「推理即填充」（reasoning-as-infilling）的框架。在該框架中，研究者預(yù)先構(gòu)造了一個顯式的「推理模板」（reasoning template），其中包含特定的推理位置與答案位置（參見圖 1）。這一模板結(jié)構(gòu)使得模型能夠基于給定的推理預(yù)算和格式，對推理軌跡進行采樣。

研究者發(fā)現(xiàn)，基于填充的模板帶來了多項優(yōu)勢。通過顯式區(qū)分 token 答案的位置，模型可以利用 MDLM 提供的被掩碼位置的條件分布，在推理過程中量化答案的不確定性。由此，模型一旦在答案上收斂，就能夠提前退出（early exit），從而降低推理計算成本。例如，在 GSM8k 數(shù)據(jù)集上，這種方法減少了 24% 的函數(shù)調(diào)用，且模型準確率沒有任何下降。

「推理即填充」不僅帶來新的推理方式，也對模型行為分析與性能提升具有重要意義。給定一個答案，研究者就可以從 MDLM 的后驗分布中采樣，該后驗分布是以答案為條件的推理軌跡，即 p_θ (r | c, a)。

這種在 MDLM 框架下對后驗分布進行便捷采樣的能力，使得研究者能夠生成高質(zhì)量的「事后推理（post-hoc reasoning）軌跡」，并將其用于模型微調(diào)，從而提升整體性能。

隨后，研究者重新審視了多 token 解碼問題。他們指出，在同一步驟中同時解碼多個位置，會導(dǎo)致生成樣本偏離模型學(xué)習(xí)到的真實分布，因為聯(lián)合分布與分解分布通常不一致：

為了解決這一偏差，研究者提出利用被掩碼位置的熵值來指導(dǎo)解碼過程，從而控制多 token 解碼相對于單 token 解碼的偏離程度。

基于這一思路，他們提出了一種自適應(yīng)多 token 解碼器 ——多 token 熵解碼（MED）。該方法僅在附加位置的條件熵低于設(shè)定閾值時，才進行并行解碼。

實驗結(jié)果表明，MED 方法能夠在保持性能幾乎不變（或僅有輕微下降）的情況下，實現(xiàn) 2–3 倍的函數(shù)調(diào)用減少，顯著降低推理計算量。

論文標題：No Compute Left Behind: Rethinking Reasoning and Sampling with Masked Diffusion Models
論文鏈接：https://arxiv.org/pdf/2510.19990

重新思考 MDLM 的推理與采樣

MDLM 通過建模被掩碼位置 j ∈ MASK-SET 的條件分布來學(xué)習(xí)對序列進行填充，其中 x_UNMASKED 表示未被掩碼的文本，c 表示上下文。

通常情況下，MDLM 的提示方式與 NTP 模型類似，而被掩碼位置的分布僅被用于在少量固定的位置進行采樣，其余位置的分布會被直接丟棄。

在本研究中，研究者表明，MDLM 所具備的填充能力，以及其對所有被掩碼位置的分布的訪問能力，開啟了許多新的采樣與后訓(xùn)練潛能。

推理即填充：用于控制、早退出與后訓(xùn)練優(yōu)勢。研究者提出在序列的多個部分預(yù)先填充用戶指定的提示。對于推理任務(wù)，他們首先預(yù)填一個區(qū)分推理位置與答案位置的推理模板，然后使用 MDLM 模型對其進行填充。這種提示方式使得研究者能夠在推理過程中控制推理長度，并在生成推理軌跡的同時衡量答案區(qū)塊的不確定性，以支持早退出機制。此外，他們還展示了這種方法如何為 MDLM 的后訓(xùn)練提供新的研究方向。
多 Token 熵解碼（MED）。研究者提出了一種自適應(yīng)的多 token 解碼算法 MED。該方法通過僅在解碼位置的條件熵低于某一閾值時才同時解碼多個位置，從而控制多 token 解碼引入的誤差。

假設(shè)：研究者假設(shè)，MDLM 模型所學(xué)習(xí)到的掩碼條件分布能夠定義出一致的聯(lián)合分布。

推理即填充

一般而言，NTP 模型在推理階段的控制方式是：在序列的開頭插入一個提示前綴（prompt prefix）。然而，對于 MDLM，研究者提出可以在輸出序列中預(yù)先填充用戶指定的 token。

在推理任務(wù)中，當模型在生成最終答案之前會輸出一段推理軌跡時，研究者可以在輸出序列中預(yù)填一個區(qū)分推理 token 與答案 token 的推理模板：

其中，答案分隔符（answer delimiter）由用戶自行指定，例如在數(shù)學(xué)任務(wù)中可以是「The answer is: 」，而在代碼生成任務(wù)中可以是函數(shù)定義等。在這種提示方式的重新表述中，上下文 c 現(xiàn)在包含了提示和答案分隔符，如圖 1 所示。通過區(qū)分推理位置與答案位置，「推理即填充」在采樣與后訓(xùn)練方面都提供了多項優(yōu)勢。

2、使用「推理即填充」對 MDLM 進行后訓(xùn)練

通常，對模型進行推理類后訓(xùn)練需要大量昂貴的人類示范數(shù)據(jù)。有人證明基于模型自身生成的推理軌跡進行后訓(xùn)練也可以提升性能。這類方法的核心思想是：從后驗分布 p_θ (r | c, a) 中采樣推理軌跡，再用這些樣本進行訓(xùn)練，從而提升模型生成正確答案的概率。

然而，對于標準的 NTP 模型，從后驗分布采樣是不可行的。因此，部分研究者采用了近似采樣方法，這些方法要么需要復(fù)雜的提示設(shè)計，要么需要額外訓(xùn)練一個模型來根據(jù)答案提示生成推理軌跡。

相比之下，借助 MDLM 的「推理即填充」方法，只需在輸出序列中預(yù)先填充答案塊位置，即可實現(xiàn)從后驗分布中采樣，而無需復(fù)雜提示設(shè)計或額外訓(xùn)練模型。這些后驗采樣得到的推理軌跡可以用于多種后訓(xùn)練方法。

3、在后訓(xùn)練中對部分推理軌跡進行評分

現(xiàn)有的微調(diào)算法（如 GRPO 和 RLOO ）通常不使用后驗樣本，而是僅在生成完成后對結(jié)果進行打分。這些算法可以從中間獎勵中獲益。近期研究表明，在生成過程中引入中間獎勵有助于模型采樣出更有利于微調(diào)的樣本。這些中間獎勵一般由外部的預(yù)訓(xùn)練過程獎勵模型提供。而通過「推理即填充」，在已知答案的情況下，MDLM 可以在中間步驟對任意部分推理軌跡進行評分。給定部分推理軌跡 r_UNMASKED 和一個答案 a^*，可以計算其得分：

直觀上，當對于某個推理軌跡 r_UNMASKED，其生成的答案各個 token 的似然值更高時，該推理軌跡往往更有可能產(chǎn)生正確答案。

多 Token 熵解碼

實驗結(jié)果

使用多 token 熵解碼的加速采樣

如圖 3 所示，對于 LLaDA 和 Dream，僅并行解碼 k=2 個 token 會導(dǎo)致它們在 GSM8k 上的準確率大幅下降（超過 40%）。作者發(fā)現(xiàn)，解碼 k=2 還會導(dǎo)致 KL 散度顯著增加。使用 λ=0.2 的 MED 方法，能為 LLaDA 和 Dream 帶來顯著的速度提升，且不會損失準確率。在 HUMANEVAL 上，MED 方法在實現(xiàn) 2.2 倍速度提升的同時，準確率保持不變；而在 GSM8k 上，可以觀察到其實現(xiàn)了 1.5 倍的速度提升，且性能沒有損失。

此外，在表 6 中，作者還測量了單 token 解碼方案與多 token 解碼方案的似然值之間的 KL 散度。

推理即填充的好處

在表 2 中，可以觀察到：對于 Dream 和 LLaDA 兩種模型而言，提前退出都能減少總的 NFE。隨著提前退出閾值 γ 的提高，模型能夠在犧牲一定任務(wù)精度的情況下?lián)Q取更快的推理速度。當提前退出與 MED 或 AR-MED 結(jié)合使用時，可獲得進一步的計算節(jié)省。

值得注意的是，提前退出帶來的收益在 LLaDA 模型上比 Dream 模型更顯著。Dream 模型要實現(xiàn)相似的加速效果，通常需要設(shè)定更高的退出閾值。這一差異可能源于 Dream 模型的結(jié)構(gòu)與來源 —— 它是由 NTP 模型改編而來。

通過表 4 可以觀察到，在由基礎(chǔ)模型生成的后驗數(shù)據(jù)上對模型進行微調(diào)，顯著提升了性能（提升 14.9%）。在 GSM8k 人工標注的推理軌跡上進行微調(diào)能產(chǎn)生相似的結(jié)果。這些結(jié)果證明，最大化后驗推理軌跡上的對數(shù)似然可提高推理任務(wù)的準確率。

之前有研究發(fā)現(xiàn)，中間過程獎勵能提升模型微調(diào)效果，但通常需要額外訓(xùn)練外部模型。在圖 4 中，作者比較了在給定中間獎勵的情況下，用于估計部分推理軌跡最終正確性的各種策略。

使用 LLaDA-8B Instruct 模型，作者在 GSM8k 測試集上采用貪心采樣策略，從左到右、逐 token 生成答案。隨后，他們計算了中間獎勵與最終輸出正確性之間的 Pearson 相關(guān)系數(shù)。

在推理過程中，利用答案的對數(shù)概率定義的中間推理過程，與最終答案正確性在中間步驟上的相關(guān)性，比一個擁有 70 億參數(shù)的預(yù)訓(xùn)練過程獎勵模型更強。

值得注意的是，作者還發(fā)現(xiàn)，測量答案塊的對數(shù)概率有助于過濾通過后驗采樣生成的低質(zhì)量推理鏈。對于一個未預(yù)填答案的后驗推理鏈，其 MDLM 平均答案概率能夠預(yù)測 GPT-4o 的推理鏈正確性得分。

這些結(jié)果表明，MDLM 預(yù)訓(xùn)練帶來了新的后訓(xùn)練能力：

可以提前終止或過濾低質(zhì)量的推理鏈；
可以引導(dǎo)推理過程朝正確解方向發(fā)展；
可以在推理失敗處自動插入「反思」token；
還可以將新的密集反饋信號納入微調(diào)目標中。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.