<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      擴散語言模型新發(fā)現(xiàn):其計算潛力正在被浪費?

      0
      分享至



      機器之心報道

      機器之心編輯部

      按從左到右的順序依次生成下一個 token 真的是大模型生成方式的最優(yōu)解嗎?最近,越來越多的研究者對此提出質(zhì)疑。其中,有些研究者已經(jīng)轉(zhuǎn)向一個新的方向 —— 掩碼擴散語言模型(MDLM)。

      和自回歸(AR)語言模型不同,MDLM 的訓(xùn)練目標是隨機遮蔽序列中的若干位置,模型學(xué)習(xí)去 in-fill(填充)這些被遮蔽位置。這樣訓(xùn)練出來的模型存在諸多優(yōu)勢,如支持任意順序解碼、多 token 并行解碼等。此前有研究表明,MDLM 的這些優(yōu)勢使其在數(shù)獨等邏輯謎題上的表現(xiàn)得到顯著提升。

      然而,最近的一篇論文有了一些意外發(fā)現(xiàn):在數(shù)學(xué)和編碼任務(wù)中,任意順序算法的性能往往不如從左到右采樣,或者表現(xiàn)與之相似,而標準的多 token 解碼會顯著降低性能。即使僅在兩個 token 上進行并行解碼,模型在主流基準任務(wù)上的性能也會顯著下降。



      使用 MDLM 進行從左到右的采樣是一種適用于推理和編碼的高效采樣算法。如果沒有 [Arriola et al., 2025] 提出的塊大小(block sizes)來強制形成半自回歸(AR)的從左到右結(jié)構(gòu),任意順序會顯著影響性能。



      MDLM 能夠并行生成多個固定 token,但這會降低準確性。作者使用塊任意順序熵解碼,并行解碼 1 個、2 個、4 個 token。可以看到,除數(shù)獨外,在所有任務(wù)中,即使并行解碼兩個 token 也會導(dǎo)致性能顯著下降。

      這一結(jié)果引發(fā)了一個問題:既然 MDLM 在訓(xùn)練時投入了大量額外計算資源以建模所有被掩碼位置的聯(lián)合分布,那么這些額外的計算是否真的物有所值?



      為了回答這個問題,研究者探究了如何將這些計算資源重新利用為有意義的推理與采樣能力。他們證明,MDLM 提供了對所有掩碼位置的條件分布的訪問權(quán)限,并具備填充(in-filling)能力,這一特性解鎖了傳統(tǒng) NTP 模型無法輕易實現(xiàn)的新型采樣與后訓(xùn)練(post-training)機制。

      首先,研究者展示了 MDLM 的填充能力如何開啟新的模型提示范式。在本文中,他們提出了「提示即填充」(prompting-as-infilling) 的方法。與 NTP 模型僅能在序列起始位置添加提示不同,這種方法允許在多個位置添加由用戶指定的上下文。

      更具體地,他們提出了「推理即填充」(reasoning-as-infilling) 的框架。在該框架中,研究者預(yù)先構(gòu)造了一個顯式的「推理模板」(reasoning template),其中包含特定的推理位置與答案位置(參見圖 1)。這一模板結(jié)構(gòu)使得模型能夠基于給定的推理預(yù)算和格式,對推理軌跡進行采樣。



      研究者發(fā)現(xiàn),基于填充的模板帶來了多項優(yōu)勢。通過顯式區(qū)分 token 答案的位置,模型可以利用 MDLM 提供的被掩碼位置的條件分布,在推理過程中量化答案的不確定性。由此,模型一旦在答案上收斂,就能夠提前退出(early exit),從而降低推理計算成本。例如,在 GSM8k 數(shù)據(jù)集上,這種方法減少了 24% 的函數(shù)調(diào)用,且模型準確率沒有任何下降。

      「推理即填充」不僅帶來新的推理方式,也對模型行為分析與性能提升具有重要意義。給定一個答案,研究者就可以從 MDLM 的后驗分布中采樣,該后驗分布是以答案為條件的推理軌跡,即 p_θ (r | c, a)。

      這種在 MDLM 框架下對后驗分布進行便捷采樣的能力,使得研究者能夠生成高質(zhì)量的「事后推理(post-hoc reasoning)軌跡」,并將其用于模型微調(diào),從而提升整體性能。

      隨后,研究者重新審視了多 token 解碼問題。他們指出,在同一步驟中同時解碼多個位置,會導(dǎo)致生成樣本偏離模型學(xué)習(xí)到的真實分布,因為聯(lián)合分布與分解分布通常不一致:



      為了解決這一偏差,研究者提出利用被掩碼位置的熵值來指導(dǎo)解碼過程,從而控制多 token 解碼相對于單 token 解碼的偏離程度。

      基于這一思路,他們提出了一種自適應(yīng)多 token 解碼器 ——多 token 熵解碼(MED)。該方法僅在附加位置的條件熵低于設(shè)定閾值時,才進行并行解碼。

      實驗結(jié)果表明,MED 方法能夠在保持性能幾乎不變(或僅有輕微下降)的情況下,實現(xiàn) 2–3 倍的函數(shù)調(diào)用減少,顯著降低推理計算量。



      • 論文標題:No Compute Left Behind: Rethinking Reasoning and Sampling with Masked Diffusion Models
      • 論文鏈接:https://arxiv.org/pdf/2510.19990

      重新思考 MDLM 的推理與采樣

      MDLM 通過建模被掩碼位置 j ∈ MASK-SET 的條件分布來學(xué)習(xí)對序列進行填充,其中 x_UNMASKED 表示未被掩碼的文本,c 表示上下文。



      通常情況下,MDLM 的提示方式與 NTP 模型類似,而被掩碼位置的分布僅被用于在少量固定的位置進行采樣,其余位置的分布會被直接丟棄。

      在本研究中,研究者表明,MDLM 所具備的填充能力,以及其對所有被掩碼位置的分布的訪問能力,開啟了許多新的采樣與后訓(xùn)練潛能。

      • 推理即填充:用于控制、早退出與后訓(xùn)練優(yōu)勢。 研究者提出在序列的多個部分預(yù)先填充用戶指定的提示。對于推理任務(wù),他們首先預(yù)填一個區(qū)分推理位置與答案位置的推理模板,然后使用 MDLM 模型對其進行填充。這種提示方式使得研究者能夠在推理過程中控制推理長度,并在生成推理軌跡的同時衡量答案區(qū)塊的不確定性,以支持早退出機制。此外,他們還展示了這種方法如何為 MDLM 的后訓(xùn)練提供新的研究方向。
      • 多 Token 熵解碼(MED)。研究者提出了一種自適應(yīng)的多 token 解碼算法 MED。該方法通過僅在解碼位置的條件熵低于某一閾值時才同時解碼多個位置,從而控制多 token 解碼引入的誤差。

      假設(shè):研究者假設(shè),MDLM 模型所學(xué)習(xí)到的掩碼條件分布能夠定義出一致的聯(lián)合分布。

      推理即填充

      一般而言,NTP 模型在推理階段的控制方式是:在序列的開頭插入一個提示前綴(prompt prefix)。然而,對于 MDLM,研究者提出可以在輸出序列中預(yù)先填充用戶指定的 token。

      在推理任務(wù)中,當模型在生成最終答案之前會輸出一段推理軌跡時,研究者可以在輸出序列中預(yù)填一個區(qū)分推理 token 與答案 token 的推理模板:



      其中,答案分隔符(answer delimiter) 由用戶自行指定,例如在數(shù)學(xué)任務(wù)中可以是「The answer is: 」,而在代碼生成任務(wù)中可以是函數(shù)定義等。在這種提示方式的重新表述中,上下文 c 現(xiàn)在包含了提示和答案分隔符,如圖 1 所示。通過區(qū)分推理位置與答案位置,「推理即填充」在采樣與后訓(xùn)練方面都提供了多項優(yōu)勢。



      2、使用「推理即填充」對 MDLM 進行后訓(xùn)練

      通常,對模型進行推理類后訓(xùn)練需要大量昂貴的人類示范數(shù)據(jù)。有人證明基于模型自身生成的推理軌跡進行后訓(xùn)練也可以提升性能。這類方法的核心思想是:從后驗分布 p_θ (r | c, a) 中采樣推理軌跡,再用這些樣本進行訓(xùn)練,從而提升模型生成正確答案的概率。

      然而,對于標準的 NTP 模型,從后驗分布采樣是不可行的。因此,部分研究者采用了近似采樣方法,這些方法要么需要復(fù)雜的提示設(shè)計,要么需要額外訓(xùn)練一個模型來根據(jù)答案提示生成推理軌跡。

      相比之下,借助 MDLM 的「推理即填充」方法,只需在輸出序列中預(yù)先填充答案塊位置,即可實現(xiàn)從后驗分布中采樣,而無需復(fù)雜提示設(shè)計或額外訓(xùn)練模型。這些后驗采樣得到的推理軌跡可以用于多種后訓(xùn)練方法。

      3、在后訓(xùn)練中對部分推理軌跡進行評分

      現(xiàn)有的微調(diào)算法(如 GRPO 和 RLOO )通常不使用后驗樣本,而是僅在生成完成后對結(jié)果進行打分。這些算法可以從中間獎勵中獲益。近期研究表明,在生成過程中引入中間獎勵有助于模型采樣出更有利于微調(diào)的樣本。這些中間獎勵一般由外部的預(yù)訓(xùn)練過程獎勵模型提供。而通過「推理即填充」,在已知答案的情況下,MDLM 可以在中間步驟對任意部分推理軌跡進行評分。給定部分推理軌跡 r_UNMASKED 和一個答案 a^*,可以計算其得分:



      直觀上,當對于某個推理軌跡 r_UNMASKED,其生成的答案各個 token 的似然值更高時,該推理軌跡往往更有可能產(chǎn)生正確答案。

      多 Token 熵解碼



      實驗結(jié)果

      使用多 token 熵解碼的加速采樣

      如圖 3 所示,對于 LLaDA 和 Dream,僅并行解碼 k=2 個 token 會導(dǎo)致它們在 GSM8k 上的準確率大幅下降(超過 40%)。作者發(fā)現(xiàn),解碼 k=2 還會導(dǎo)致 KL 散度顯著增加。使用 λ=0.2 的 MED 方法,能為 LLaDA 和 Dream 帶來顯著的速度提升,且不會損失準確率。在 HUMANEVAL 上,MED 方法在實現(xiàn) 2.2 倍速度提升的同時,準確率保持不變;而在 GSM8k 上,可以觀察到其實現(xiàn)了 1.5 倍的速度提升,且性能沒有損失。



      此外,在表 6 中,作者還測量了單 token 解碼方案與多 token 解碼方案的似然值之間的 KL 散度。



      推理即填充的好處

      在表 2 中,可以觀察到:對于 Dream 和 LLaDA 兩種模型而言,提前退出都能減少總的 NFE。隨著提前退出閾值 γ 的提高,模型能夠在犧牲一定任務(wù)精度的情況下?lián)Q取更快的推理速度。當提前退出與 MED 或 AR-MED 結(jié)合使用時,可獲得進一步的計算節(jié)省。

      值得注意的是,提前退出帶來的收益在 LLaDA 模型上比 Dream 模型更顯著。Dream 模型要實現(xiàn)相似的加速效果,通常需要設(shè)定更高的退出閾值。這一差異可能源于 Dream 模型的結(jié)構(gòu)與來源 —— 它是由 NTP 模型改編而來。



      通過表 4 可以觀察到,在由基礎(chǔ)模型生成的后驗數(shù)據(jù)上對模型進行微調(diào),顯著提升了性能(提升 14.9%)。在 GSM8k 人工標注的推理軌跡上進行微調(diào)能產(chǎn)生相似的結(jié)果。這些結(jié)果證明,最大化后驗推理軌跡上的對數(shù)似然可提高推理任務(wù)的準確率。



      之前有研究發(fā)現(xiàn),中間過程獎勵能提升模型微調(diào)效果,但通常需要額外訓(xùn)練外部模型。在圖 4 中,作者比較了在給定中間獎勵的情況下,用于估計部分推理軌跡最終正確性的各種策略。



      使用 LLaDA-8B Instruct 模型,作者在 GSM8k 測試集上采用貪心采樣策略,從左到右、逐 token 生成答案。隨后,他們計算了中間獎勵與最終輸出正確性之間的 Pearson 相關(guān)系數(shù)。

      在推理過程中,利用答案的對數(shù)概率定義的中間推理過程,與最終答案正確性在中間步驟上的相關(guān)性,比一個擁有 70 億參數(shù)的預(yù)訓(xùn)練過程獎勵模型更強。

      值得注意的是,作者還發(fā)現(xiàn),測量答案塊的對數(shù)概率有助于過濾通過后驗采樣生成的低質(zhì)量推理鏈。對于一個未預(yù)填答案的后驗推理鏈,其 MDLM 平均答案概率能夠預(yù)測 GPT-4o 的推理鏈正確性得分。

      這些結(jié)果表明,MDLM 預(yù)訓(xùn)練帶來了新的后訓(xùn)練能力:

      • 可以提前終止或過濾低質(zhì)量的推理鏈;
      • 可以引導(dǎo)推理過程朝正確解方向發(fā)展;
      • 可以在推理失敗處自動插入「反思」token;
      • 還可以將新的密集反饋信號納入微調(diào)目標中。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      被南方人的“取暖妙招”驚呆了!省錢又實用,試過后:真離不開

      被南方人的“取暖妙招”驚呆了!省錢又實用,試過后:真離不開

      Home范
      2025-11-04 14:02:51
      目前大眾、博世、歐洲汽車協(xié)會已經(jīng)就“荷蘭奪走中國安世”表態(tài)

      目前大眾、博世、歐洲汽車協(xié)會已經(jīng)就“荷蘭奪走中國安世”表態(tài)

      音樂時光的娛樂
      2025-11-05 07:32:03
      曼城遭重創(chuàng)!中場鐵腰傷停4個月 本賽季僅踢55分鐘

      曼城遭重創(chuàng)!中場鐵腰傷停4個月 本賽季僅踢55分鐘

      球事百科吖
      2025-11-05 01:21:17
      俄羅斯必須直面現(xiàn)實:歸還領(lǐng)土100萬,換取中國的全力支持

      俄羅斯必須直面現(xiàn)實:歸還領(lǐng)土100萬,換取中國的全力支持

      科技虎虎
      2025-06-16 17:40:21
      谷正文口中最硬的骨頭,張志忠夫婦犧牲后,兒子自殺,女兒命更苦

      谷正文口中最硬的骨頭,張志忠夫婦犧牲后,兒子自殺,女兒命更苦

      黑句本
      2025-10-30 20:23:08
      巴黎世家3.6萬的一分褲長這樣!衣服已經(jīng)顛到讓人懷疑人生

      巴黎世家3.6萬的一分褲長這樣!衣服已經(jīng)顛到讓人懷疑人生

      80后房車生活
      2025-09-28 23:27:33
      劉強東婚變后坦白沒自信,章澤天狀態(tài)好與男星看展

      劉強東婚變后坦白沒自信,章澤天狀態(tài)好與男星看展

      仙味少女心
      2025-11-05 00:01:26
      價格不變配置調(diào)整!大眾新款寶來上市 售11.29萬元起

      價格不變配置調(diào)整!大眾新款寶來上市 售11.29萬元起

      車回路轉(zhuǎn)
      2025-11-05 16:45:11
      小米“先收錢后造車”引眾怒!20萬訂單壓垮產(chǎn)能,律師:涉嫌欺詐

      小米“先收錢后造車”引眾怒!20萬訂單壓垮產(chǎn)能,律師:涉嫌欺詐

      吃瓜局
      2025-11-05 15:25:33
      中央定調(diào)!2025年70歲以上老人,可享受這幾項優(yōu)待,農(nóng)民也有份

      中央定調(diào)!2025年70歲以上老人,可享受這幾項優(yōu)待,農(nóng)民也有份

      社保小達人
      2025-10-19 11:30:07
      盧指導(dǎo)下課!哈登空砍25+6+6難救快船!亞歷山大30+4+12+3創(chuàng)紀錄

      盧指導(dǎo)下課!哈登空砍25+6+6難救快船!亞歷山大30+4+12+3創(chuàng)紀錄

      Tracy的籃球博物館
      2025-11-05 14:33:19
      面相又變了,50歲趙薇近照曝光,婚禮上用心打扮,卻走不了回頭路

      面相又變了,50歲趙薇近照曝光,婚禮上用心打扮,卻走不了回頭路

      銀河史記
      2025-11-03 14:33:02
      特朗普70分鐘狂提中國41次,罕見自我“檢討”,稱合作比擊敗更強

      特朗普70分鐘狂提中國41次,罕見自我“檢討”,稱合作比擊敗更強

      博覽歷史
      2025-11-04 20:10:36
      吳艷妮穿緊身三角褲太窄被批“露骨”,到底礙了誰的眼?

      吳艷妮穿緊身三角褲太窄被批“露骨”,到底礙了誰的眼?

      傲嬌的馬甲線
      2025-09-17 18:06:44
      “一看衛(wèi)生紙,就知道我是窮孩子!”女孩發(fā)宿舍對比照,現(xiàn)實扎心

      “一看衛(wèi)生紙,就知道我是窮孩子!”女孩發(fā)宿舍對比照,現(xiàn)實扎心

      小羽叨叨叨
      2025-11-04 16:31:27
      “小寶探花”回顧:瘋狂約會上百名女性,一人拍攝,一人販賣

      “小寶探花”回顧:瘋狂約會上百名女性,一人拍攝,一人販賣

      就一點
      2025-11-03 10:09:10
      車船稅新政11月落地!大排量車稅負上漲,1.6L以下或享優(yōu)惠

      車船稅新政11月落地!大排量車稅負上漲,1.6L以下或享優(yōu)惠

      芭比衣櫥
      2025-11-04 05:34:09
      女教授一個星期高燒不退,去醫(yī)院檢查時,醫(yī)生卻讓她脫掉褲子...

      女教授一個星期高燒不退,去醫(yī)院檢查時,醫(yī)生卻讓她脫掉褲子...

      歷史八卦社
      2025-05-19 22:39:19
      怎么回事兒?安世半導(dǎo)體之爭,荷蘭竟然越談越硬!

      怎么回事兒?安世半導(dǎo)體之爭,荷蘭竟然越談越硬!

      張嘴說財經(jīng)
      2025-11-05 20:53:18
      10月制造業(yè)PMI下跌,中國經(jīng)濟的“微妙時刻”來臨

      10月制造業(yè)PMI下跌,中國經(jīng)濟的“微妙時刻”來臨

      黑噪音
      2025-11-05 05:45:03
      2025-11-06 06:28:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      11656文章數(shù) 142499關(guān)注度
      往期回顧 全部

      科技要聞

      大轉(zhuǎn)彎!特朗普再提名馬斯克盟友任NASA局長

      頭條要聞

      美國肯塔基州州長:本州進入緊急狀態(tài)

      頭條要聞

      美國肯塔基州州長:本州進入緊急狀態(tài)

      體育要聞

      贏下皇馬,會是利物浦的轉(zhuǎn)折點嗎?

      娛樂要聞

      港星林尚武突發(fā)心臟病去世

      財經(jīng)要聞

      事關(guān)加快建設(shè)金融強國 中央金融辦發(fā)聲

      汽車要聞

      智己LS9入局"9系"混戰(zhàn) 全尺寸SUV市場迎來新變量

      態(tài)度原創(chuàng)

      手機
      游戲
      家居
      旅游
      教育

      手機要聞

      蘋果Shazam更新26.0版:液態(tài)玻璃界面煥新登場

      一份游戲雙平臺玩!PS5/PC跨平臺購買標志新發(fā)現(xiàn)

      家居要聞

      別樣府院 暢享詩意生活

      旅游要聞

      壩河15公里游船航線開始試航

      教育要聞

      語言的學(xué)習(xí),從不講捷徑

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 久久久国产精品VA麻豆| 欧美成人性色一区欧美成人性色区| 波多野42部无码喷潮| 日韩精品一区二区高清视频| 亚洲成人av在线高清| 国产精品美女一区二三区| 日韩精品中文字幕人妻| 欧美熟妇乱子伦XX视频| 国产毛片精品av一区二区| 极品少妇被后入内射视| 高清免费毛片| 人人干人人噪人人摸| 国产精品黄色精品黄色大片| 国产欧美日韩精品丝袜高跟鞋 | 碌曲县| 亚洲国产精品第一二三区| 亚洲av免费成人在线| 亚洲国产精品成人av网| 欧美极品色午夜在线视频| 国产福利萌白酱在线观看视频| 97一区二区国产好的精华液| 日韩成人一区二区三区在线观看 | 国产精品白浆在线观看免费| 国产成人女人在线观看| 人人妻人人狠人人爽天天综合网 | 精品无码成人片一区二区| 免费99视频| 中文字幕日韩视频欧美一区| 日韩淫片毛片视频免费看| 无码av中文字幕免费放| 日韩一区二区黄色一级片| 一本精品99久久精品77| 日本一区二区不卡精品| 欧美精欧美乱码一二三四区| 亚洲中文字幕无码爆乳APP| 国产精品护士| 阿拉尔市| 色综合色综合久久综合频道| 日韩免费码中文在线观看| 乱码精品一区二区三区| 国产欧美精品aaaaaa片|