<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      中關村學院新發現:輕量級驗證器可解鎖LLM推理最優選擇

      0
      分享至



      本文由北京中關村學院、哈爾濱工業大學、中科院自動化所等多家單位作者共同完成,第一作者為北京中關村學院與哈爾濱工業大學聯培博士生俞斌,指導教師包括:哈爾濱工業大學教授 & 哈工大青島研究院院長王佰玲,北京中關村學院 & 中關村人工智能研究院具身智能方向負責人陳凱。

      研究背景:Test-Time Scaling 的兩種范式

      在大語言模型(LLM)席卷各類復雜任務的今天,“測試時擴展”(Test-Time Scaling,TTS)已成為提升模型推理能力的核心思路 —— 簡單來說,就是在模型 “答題” 時分配更多的計算資源來讓它表現更好。嚴格來說,Test-Time Scaling 分成兩類:

      • 內部 Test-Time Scaling:以 DeepSeek-R1 為代表的推理型大模型通過拉長思維鏈來實現內部的測試時擴展。
      • 外部 Test-Time Scaling:讓模型在回答問題時進行并行推理得到多個推理路徑,然后通過聚合這些不同的推理路徑來得到最終的答案。

      隨著各種改進推理思維鏈方案的提出,通過內部 Test-Time Scaling 來提高模型性能的方法逐漸接近瓶頸,這時更好的選擇則是轉向去回答另一個問題:如果通過外部 Test-Time Scaling 來繼續實現模型性能的增長?

      Best-of-N 范式是測試時擴展的一種典型代表:對于一個數學問題,模型生成 N 條推理路徑并從中選擇一項最有可能正確的路徑作為最終答案,如下圖所示:



      傳統實現 Best-of-N 的方法有兩種:

      1. 投票法(Majority Voting):哪個答案出現最多就選哪個;

      2. 過程獎勵模型(Process Reward Model,PRM):用一個額外的模型給每一步打分,再選總分最高的路徑。

      然而兩者都存在各自的問題:投票法相對粗糙,且近期的研究也發現,“正確的答案往往存在于少數中”,這也進一步揭示了投票法在 Best-of-N 任務中的不足;過程獎勵模型的相關方法則存在性能不穩定現象,這種現象源于當前的各類過程獎勵模型并非針對外部 Test-Time Scaling 和推理型模型所設計,從而導致了這些模型在應用于 Best-of-N 任務時存在明顯的魯棒性和性能問題。

      本文的研究試圖去彌補這類研究的缺陷,并提出了TrajSelector 方法:一種輕量級但強大的 Best-of-N 策略,它通過復用大模型自身的 “隱藏狀態” 來評估推理路徑質量,無需昂貴的過程標注或 7B 參數的獎勵模型,就能在數學推理任務中取得顯著性能提升。



      • 論文標題:TrajSelector: Harnessing Latent Representations for Efficient and Effective Best-of-N in Large Reasoning Model
      • 論文地址:https://arxiv.org/abs/2510.16449
      • 項目主頁:https://zgca-ai4edu.github.io/TrajSelector/

      TrajSelector:利用大模型隱狀態,解鎖大模型推理的 “最優選擇”

      論文首先分析現有 Best-of-N 方法的兩個致命缺陷:

      • 重量級過程獎勵模型(PRM)的成本太高:主流方法用 7B 參數的 PRM 給每個推理步驟打分,部署和推理成本幾乎和策略模型(比如 8B 的 Qwen3)持平,成本驟增;
      • 模型隱狀態被浪費:另一些方法嘗試用策略模型的內在狀態評估答案,但這些狀態沒有被系統化利用,在不同任務上性能波動極大,可靠性差。

      為什么需要隱狀態?因為大模型的隱狀態里往往藏著 “自我反思信號”—— 比如解數學題時,某個步驟的隱狀態可能已經編碼了 “這個推導是否合理” 的信息,只是沒有被顯式利用。

      TrajSelector 的核心目標就是解決這兩個問題:用最小的參數開銷,充分利用策略采樣模型的隱狀態,實現 Effective 且 Efficient 的 Best-of-N 范式。該方法的架構圖如下:



      TrajSelector 的框架非常簡潔,本質是“并行采樣 - 步驟打分 - 聚合選優” 的三步流水線:

      1. 并行采樣:使用一個凍結的策略模型進行并行采樣,得到多個推理路徑及其隱狀態。

      2. 步驟打分:TrajSelector 方法用一個僅 0.6B 參數的輕量級打分模型(即 Qwen3-0.6B-Base),通過復用策略模型的隱狀態給每個推理步驟打分。這種隱狀態的利用使得輕量級的小模型能夠復用來自于策略模型的編碼能力,使得在顯著減小模型參數規模的前提下,實現了更優的打分效果。

      3. 聚合選優:TrajSelector 使用了最簡單的算術平均來計算每個推理路徑的得分情況,得出每一個的全局分數,進行選擇出全局分數最高的路徑作為最終答案。

      訓練方案

      傳統 PRM 需要大量 “步驟級標注”—— 比如人工給每個推理步驟標 “對 / 錯”,成本極高。而 TrajSelector 的訓練完全不用手動標注,僅靠 “弱監督” 就能實現模型的訓練。

      訓練時的核心挑戰在于:一個最終正確的軌跡,未必每個步驟都正確(比如步驟有冗余,但結果對了)。如果直接把 “軌跡標簽” 當成 “步驟標簽”,會引入大量噪聲。TrajSelector 借鑒了來自于 FreePRM 的損失函數設計方案,額外引入了一個 “buffer” 選項來吸收噪聲,從而設計出一個特殊的三分類損失函數:

      • 對于標簽為 “正確” 的軌跡,要求模型預測 “正確 + 中性” 的概率和為 1(允許部分步驟是中性,吸收噪聲);
      • 對于標簽為 “錯誤” 的軌跡,要求模型預測 “錯誤 + 中性” 的概率和為 1。



      這樣的訓練方案擺脫了對人工過程標注的依賴,從數據驅動的角度讓模型自主學習如何 “抓重點”,在大規模數據的訓練下實現了一個智能且輕量級的過程驗證器。

      實驗效果

      論文給出了 Best-of-N 任務中多個 N 值設置下的模型性能表現,包括 N = 1,5,10,16,32,64 ,基準選用了主流的 AMC23、AIME24、AIME25、BeyondAIME、HMMT25、BRUMO-25 等多個基準。

      下表給出了以 Qwen3-8B 為基座的 N=16 和 N=32 時 Best-of-N 表現:



      匯總各個 baselines 的平均表現,可以繪制出一個由 Best-of-N 實現的外部 Test-Time Scaling 曲線圖:



      與各基線相比,隨著 N 的增大,TrajSelector 方案實現了更穩定的性能增長。

      總結

      TrajSelector 給大模型推理優化提供了一個重要思路:與其追求更大的模型,不如更聰明地利用現有模型的能力。它用 0.6B 的輕量級驗證器,實現了比 7B PRM 更好的效果,證明了 “隱藏狀態中的自我反思信號” 是未被充分挖掘的寶藏。對于需要落地大模型推理的場景(比如教育、科研計算),TrajSelector 的高效性和低成本特性,讓 “Best-of-N” 從 “實驗室方案” 真正走向 “實用化”。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      章澤天現實長啥樣?路人的鏡頭才是“照妖鏡”,突然理解劉強東了

      章澤天現實長啥樣?路人的鏡頭才是“照妖鏡”,突然理解劉強東了

      仙味少女心
      2025-11-05 20:07:28
      官媒出手!曝秦雯襲警被立案調查,已遭到反噬,勢力大也沒用

      官媒出手!曝秦雯襲警被立案調查,已遭到反噬,勢力大也沒用

      說歷史的老牢
      2025-11-05 13:16:47
      女面試官:“我肚子疼,能幫我接杯熱水嗎?”男子一句話,當場被錄用!

      女面試官:“我肚子疼,能幫我接杯熱水嗎?”男子一句話,當場被錄用!

      上海約飯局
      2025-11-05 21:57:07
      又一個上海房東被降價逼瘋了

      又一個上海房東被降價逼瘋了

      魔都財觀
      2025-11-06 17:59:19
      王一菲被指街頭亂扔煙頭,本人發文道歉:接受大家的監督與批評

      王一菲被指街頭亂扔煙頭,本人發文道歉:接受大家的監督與批評

      紅星新聞
      2025-11-06 16:57:17
      沉寂三天,人民日報發文促統,賴清德將上審判臺,鄭麗文判斷沒錯

      沉寂三天,人民日報發文促統,賴清德將上審判臺,鄭麗文判斷沒錯

      歷史有些冷
      2025-11-05 22:15:03
      美科技巨頭SAS閃電撤離中國,400員工被裁,賠償N+2加年終獎!

      美科技巨頭SAS閃電撤離中國,400員工被裁,賠償N+2加年終獎!

      眼光很亮
      2025-11-06 10:41:38
      獨行俠自由落體湖人被77帶飛 尼科的恥辱愈演愈烈

      獨行俠自由落體湖人被77帶飛 尼科的恥辱愈演愈烈

      體壇周報
      2025-11-06 15:08:13
      荷蘭與廣州同為1800多萬人,荷蘭創造1.22萬億GDP,廣州令人意外

      荷蘭與廣州同為1800多萬人,荷蘭創造1.22萬億GDP,廣州令人意外

      近史談
      2025-11-01 16:36:25
      小伙背著40克黃金+2.5萬現金打車!北京司機悄悄放慢車速……

      小伙背著40克黃金+2.5萬現金打車!北京司機悄悄放慢車速……

      極目新聞
      2025-11-06 19:58:25
      收藏:濟南市最出名的五位老中醫,專攻這些領域

      收藏:濟南市最出名的五位老中醫,專攻這些領域

      華庭講美食
      2025-11-06 14:38:41
      真正的高門貴女有多奢侈,王詩齡看了也想重新投胎?

      真正的高門貴女有多奢侈,王詩齡看了也想重新投胎?

      時尚的弄潮
      2025-11-05 11:18:45
      上海隊陳芋汐/掌敏潔獲得全運會女子雙人10米臺冠軍

      上海隊陳芋汐/掌敏潔獲得全運會女子雙人10米臺冠軍

      澎湃新聞
      2025-11-06 18:58:27
      中國003航母甲板擺滿艦載機,舷號閃亮,南海某軍港正搭建觀禮臺

      中國003航母甲板擺滿艦載機,舷號閃亮,南海某軍港正搭建觀禮臺

      花花娛界
      2025-11-06 11:11:30
      合砍29分,火箭隊坐擁兩頂級3D,伊森值得大合同續約,雙塔變五小

      合砍29分,火箭隊坐擁兩頂級3D,伊森值得大合同續約,雙塔變五小

      替補席看球
      2025-11-06 11:40:30
      從第5跌至第13!紐卡戰績低迷:賣了伊薩克 買回一堆水貨

      從第5跌至第13!紐卡戰績低迷:賣了伊薩克 買回一堆水貨

      球事百科吖
      2025-11-06 00:27:31
      舒淇馮德倫同框殺瘋了!這才是內娛真夫妻天花板這波狗糧灑的真甜

      舒淇馮德倫同框殺瘋了!這才是內娛真夫妻天花板這波狗糧灑的真甜

      小娛樂悠悠
      2025-11-06 07:35:40
      南通捕魚小船遇開閘放水側翻,船上1人失蹤?當地:人已找到,事情在處理中

      南通捕魚小船遇開閘放水側翻,船上1人失蹤?當地:人已找到,事情在處理中

      極目新聞
      2025-11-06 19:49:09
      為什么瑞典沒幾個中國人待得住?在瑞典生活幾個月,不瘋也抑郁!

      為什么瑞典沒幾個中國人待得住?在瑞典生活幾個月,不瘋也抑郁!

      百態人間
      2025-11-05 05:15:03
      日本丑女花費2600萬整形后的模樣對比驚呆眾人

      日本丑女花費2600萬整形后的模樣對比驚呆眾人

      隨波蕩漾的漂流瓶
      2025-11-05 17:25:03
      2025-11-06 22:27:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11665文章數 142499關注度
      往期回顧 全部

      科技要聞

      小鵬機器人里藏真人?何小鵬發一鏡到底視頻

      頭條要聞

      男子到堰塘釣魚時觸碰高壓線身亡 供電公司被判賠37萬

      頭條要聞

      男子到堰塘釣魚時觸碰高壓線身亡 供電公司被判賠37萬

      體育要聞

      送走兩位全明星,公牛成了東部第一

      娛樂要聞

      “黑料纏身”的白百何 誰給她的勇氣?

      財經要聞

      南銀法巴加速發展背后:資金饑渴癥待解

      汽車要聞

      是我眼花了么?怎么大猩猩都來參加新車發布了?

      態度原創

      時尚
      旅游
      本地
      藝術
      公開課

      看看這些穿搭就知道,秋季穿衣很簡單,找對方法舒適又得體

      旅游要聞

      浪漫“中國冷極”:點燃篝火 邀約冰雪

      本地新聞

      這屆干飯人,已經把博物館吃成了食堂

      藝術要聞

      預定年度十佳!49歲的舒淇,殺瘋了

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 精品黑人一区二区三区| 图片区小说区av区| 亚洲欧美日韩在线码| 亚洲第一综合天堂另类专| 亚洲中文字幕无码一久久区| 久久综合色之久久综合色| 国产精品午夜福利91| 亚洲综合精品第一页| 无码中文字幕av免费放| 久久久亚洲欧洲日产国码农村| 房产| 国产精品中文字幕第一页| 国产精品亚洲二区亚瑟| 国产精品免费无遮挡无码永久视频| 国产精品一亚洲av日韩| 亚洲欧洲一区二区三区久久| 人人爽人人爽人人片a免费| 人妻有码av中文字幕久久琪| 99国产午夜福利在线观看| 成人免费AV一区二区三区| 国产精品亚洲аv无码播放| 色偷偷亚洲女人天堂观看| 亚洲一区二区三级av| 性姿势真人免费视频放| 国产一区二区三区九九视频| 99久久精品免费看国产电影| 欧美裸体xxxx极品| 国产av精品一区二区三区| 亚洲综合一区二区三区| 国产精品一区二区色综合| 奇米影视7777狠狠狠狠色| 国产成人综合色视频精品| 久久亚洲精品中文字幕波多野结衣| 亚洲在战av极品无码| 国产免费福利网站| 97人人添人人澡人人澡人人澡| 开心五月激情综合久久爱| 又爽又黄又无遮挡的视频| 亚洲精品香蕉一区二区| 毛片av在线尤物一区二区| 丰满的熟妇岳中文字幕|