<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      推理時擾動高熵詞,增強LLM性能

      0
      分享至



      本文第一作者楊震,香港科技大學(廣州)博士生,研究方向是多模態理解與生成等。本文通訊作者陳穎聰,香港科技大學(廣州)助理教授,主要研究課題包括生成模型、具身智能等。

      隨著對大語言模型的研究越來越深入,關于測試時間擴展 (test-time scaling) 的相關研究正迅速嶄露頭角。研究團隊重新審視測試時行為,發現了一個簡單但尚未得到充分探索的現象:LLM 推理時的不確定性高度局部化 —— 一小部分高熵詞會顯著影響輸出的正確性。



      正是基于這一關鍵觀察,來自香港科技大學(廣州)的研究團隊提出了 Minimal Test-Time Intervention (MTI),其主要包含了 Selective CFG intervention 與 Lightweight negative-prompt guidance 兩種方法。MTI 能夠在推理階段無需額外訓練,就提升大型語言模型的推理能力。



      • 論文標題:Less is More: Improving LLM Reasoning with Minimal Test-Time Intervention
      • 論文地址:https://arxiv.org/abs/2510.13940
      • Github(代碼已開源):https://github.com/EnVision-Research/MTI
      • Huggingface Paper:https://huggingface.co/papers/2510.13940



      Selective CFG intervention:

      減弱高熵詞的不確定性


      LLM 在多步推理中經常表現出鏈式不穩定性:幾個步驟中的不確定性會放大并導致整個答案偏離軌道。為了找到這種不穩定性的原因,研究團隊分析了 LLM 回答錯誤的問題,并發現錯誤回答的熵更高,而這主要是由回答中的高熵詞導致的。為此,研究團隊提出在高熵詞上使用 Classifier-free Guidance (CFG) 以在降低不確定性的同時穩定推理過程,并能在保持高效率的同時提高性能。

      Lightweight negative-prompt guidance:

      復用 KV cache 并注入負向詞,節省顯存分配的同時維護更優的無條件空間


      研究團隊觀察到,盡管 Selective CFG intervention 僅對高熵詞進行操作,但是仍需為無條件預測支路分配一個新的 KV 緩存,這大大降低了現代 LLM 推理加速器的效率。比如,維護雙 KV 緩存會削弱諸如 vllm 等框架的長上下文處理能力。此外,CFG 源自計算機視覺,其會在訓練過程中引入無條件標簽來學習全局數據分布。相比之下,LLM 中的 CFG 并未訓練建模全局文本分布的能力。因此,研究團隊認為無條件分支應該被視為一個負向提示通道:條件分支專注于生成正確的詞,而無條件分支則被鼓勵生成錯誤的詞。為此,研究團隊重用了條件分支的 KV 緩存,并附加了一條用于引出錯誤詞的短指令,最終實現了在維護更優無條件空間的同時節省了 KV 緩存分配。此外,注入的短語非常靈活,比如研究團隊發現 “OUTPUT ERROR” 就已經產生了優良的效果。

      實驗結果


      研究團隊在多個任務上進行了測試,其中包括通用任務(Winogrande,MMLU-Pro),代碼任務(Humaneval,Humaneval_plus,LiveCodeBench),數學與科學任務(GPQA-Diamond,MATH500)上進行了系統測試。結果顯示僅在很少的高熵詞上使用 MTI,就能在多個數據集上穩定帶來性能提升,驗證了方法的有效性。比如在 Qwen3-14B-Reasoning 上,僅對 3.5% 的詞執行 MTI,可以為所有任務平均提點 1.58。



      從 AIME2024 的實驗中也發現,MTI 方法具備顯著的優勢。比如在 Qwen3-8B-Reasoning 模型中,僅需對 1.9% 的詞執行 CFG,就可以為準確性帶來 4.9% 的增長,證明了 MTI 在維護高效率的同時,也改進了性能。



      分析實驗



      研究團隊發現,一些低熵詞很難被 CFG 所改變,這是由于 LLM 在低熵詞上對自己的輸出非常確信,所以很難被 CFG 改變,而這些失敗的 CFG 操作便降低了效率。CFG 所能改變的預測主要集中在高熵詞部分,這是由于模型對自己的預測并不自信,因此 CFG 可以修正它。這些發現也從側面反映并非所有的詞都需要使用 CFG。



      研究團隊發現對于基礎模型,詞云中的一些低信息量占位符(例如 **)被語義上更有意義的詞語所取代,從而創造了更豐富的推理分支,并最終提高了準確率。對于推理模型,研究團隊觀察到從單一連接詞(例如 so)向更多樣化的連接詞(例如 however、if、perhaps、alternatively、wait)的轉變。這有助于模型摒棄錯誤的先驗推理鏈,并開啟新的思路,最終得出正確的推理。總體而言,應用該方法可以產生更加多樣化和平衡的詞匯,擴展更多的假設和推理軌跡,最終獲得更好的結果。

      總結


      總的來看,這項工作揭示了 LLM 在推理階段的一少部分高熵詞會顯著影響輸出正確性,并提出了 Minimal Test-Time Intervention (MTI),其中包含 Selective CFG intervention 和 Lightweight negative-prompt guidance。該方法無需訓練并即插即用,易于與現代加速框架和各種解碼策略或測試時擴展方法進行結合。該方法利用對推理階段高熵詞的擾動,不僅顯著提升了模型在大量任務上的表現,也為未來挖掘 LLM 推理階段的潛力提供了全新的思路。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      蔡孝乾叛變吳石暴露,李克農派出的潛臺小組,不辱使命絕境立功

      蔡孝乾叛變吳石暴露,李克農派出的潛臺小組,不辱使命絕境立功

      黑句本
      2025-11-03 10:45:13
      第二次授銜,還健在的27位開國上將,分別擔任什么職位?

      第二次授銜,還健在的27位開國上將,分別擔任什么職位?

      大運河時空
      2025-11-05 18:25:03
      鄭智接手邵佳一!離開多年重回中超,帶黃博文一同執教青島

      鄭智接手邵佳一!離開多年重回中超,帶黃博文一同執教青島

      小金體壇大視野
      2025-11-06 13:27:25
      當年,劉威給劉蓓打電話:偏兒,我要在北京租房子,你有門路沒?

      當年,劉威給劉蓓打電話:偏兒,我要在北京租房子,你有門路沒?

      忠于法紀
      2025-11-06 09:15:52
      宗馥莉換“心腹”:宏勝集團法定代表人由祝麗丹變為鄭群娣

      宗馥莉換“心腹”:宏勝集團法定代表人由祝麗丹變為鄭群娣

      第一財經資訊
      2025-11-06 09:57:13
      為啥美國總統換一個,“總統專車”就換一輛,廢棄的要投入大海?

      為啥美國總統換一個,“總統專車”就換一輛,廢棄的要投入大海?

      欽點歷史
      2025-11-05 15:55:39
      清涼爆乳女神逛迪士尼!她的夏日造型讓人心跳加速!

      清涼爆乳女神逛迪士尼!她的夏日造型讓人心跳加速!

      大為看點丶
      2025-11-06 16:35:06
      不到5天,被點名的秦雯再迎3大噩耗,襲警只是冰山一角

      不到5天,被點名的秦雯再迎3大噩耗,襲警只是冰山一角

      娛小北
      2025-11-04 18:41:34
      美國對特斯拉門把手發起調查,多名家長反映孩子曾因此被困車內

      美國對特斯拉門把手發起調查,多名家長反映孩子曾因此被困車內

      IT之家
      2025-11-06 16:57:11
      震驚!天津一高校學生取外賣遭阻,對方稱是該校“唯一指定”外賣

      震驚!天津一高校學生取外賣遭阻,對方稱是該校“唯一指定”外賣

      火山詩話
      2025-11-06 15:10:53
      被南方人的“取暖妙招”驚呆了!省錢又實用,試過后:真離不開

      被南方人的“取暖妙招”驚呆了!省錢又實用,試過后:真離不開

      Home范
      2025-11-04 14:02:51
      網紅鴨:從“做羽絨”到“穿羽絨”,現存羽絨服相關企業超4.8萬家

      網紅鴨:從“做羽絨”到“穿羽絨”,現存羽絨服相關企業超4.8萬家

      投資時間網
      2025-11-05 10:41:50
      庭審結束!特朗普關稅政策可能被叫停!

      庭審結束!特朗普關稅政策可能被叫停!

      新浪財經
      2025-11-06 16:55:41
      他病休太久,不具備晉升大校條件?司令,政委難以開口,離開部隊

      他病休太久,不具備晉升大校條件?司令,政委難以開口,離開部隊

      大運河時空
      2025-11-05 17:20:03
      白百何疑開撕王傳君沖熱搜!疑因獎項分配不公,發文暗諷滬圈操作

      白百何疑開撕王傳君沖熱搜!疑因獎項分配不公,發文暗諷滬圈操作

      古木之草記
      2025-11-05 18:13:32
      月薪兩三萬放羊,找不到人,急

      月薪兩三萬放羊,找不到人,急

      都市快報橙柿互動
      2025-11-06 10:34:30
      凱斯勒只打5場賽季報銷!左肩盂唇撕裂明日手術 爵士擺爛沖狀元?

      凱斯勒只打5場賽季報銷!左肩盂唇撕裂明日手術 爵士擺爛沖狀元?

      羅說NBA
      2025-11-06 06:33:10
      威少轟23+16+10仍無緣今日最佳!對不起,你碰到創紀錄的約基奇了

      威少轟23+16+10仍無緣今日最佳!對不起,你碰到創紀錄的約基奇了

      世界體育圈
      2025-11-06 14:14:46
      全運會:王楚欽、樊振東無緣會師男單決賽,林詩棟或成最大贏家

      全運會:王楚欽、樊振東無緣會師男單決賽,林詩棟或成最大贏家

      攬星河的筆記
      2025-11-06 16:22:51
      廣州的廖一帆爸爸火了,因為他揭開了家委會的真相

      廣州的廖一帆爸爸火了,因為他揭開了家委會的真相

      清暉有墨
      2025-09-05 19:24:18
      2025-11-06 17:48:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11665文章數 142499關注度
      往期回顧 全部

      科技要聞

      小鵬機器人里藏真人?何小鵬發一鏡到底視頻

      頭條要聞

      孫東旭離開東方甄選 曾因與董宇輝"小作文風波"引爭議

      頭條要聞

      孫東旭離開東方甄選 曾因與董宇輝"小作文風波"引爭議

      體育要聞

      送走兩位全明星,公牛成了東部第一

      娛樂要聞

      “黑料纏身”的白百何 誰給她的勇氣?

      財經要聞

      南銀法巴加速發展背后:資金饑渴癥待解

      汽車要聞

      是我眼花了么?怎么大猩猩都來參加新車發布了?

      態度原創

      本地
      手機
      時尚
      數碼
      公開課

      本地新聞

      這屆干飯人,已經把博物館吃成了食堂

      手機要聞

      2025年第三季度,中國手機在印度遭遇了什么?

      中國色特別策劃 | 故宮技藝與古意新生

      數碼要聞

      10億美元!新版Siri將融入谷歌Gemini大模型,明年上線

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 97人妻人人揉人人躁人人| 精品天堂色吊丝一区二区| 亚洲高潮喷水无码AV电影| 精品视频在线观看免费观看| 国产精品国产三级在线专区 | 国产亚洲亚洲国产一二区| 国产精品自在线拍国产手机版 | 亚洲精品无码你懂的网站| 亚洲av成人一区在线| 浪潮av色综合久久天堂| 最新亚洲国产手机在线| 综合色一色综合久久网| 色综合色综合色综合频道| 夜夜高潮次次欢爽av女| 毛片av在线尤物一区二区| 国产亚洲综合一区二区三区| 日韩欧美aⅴ综合网站发布| 国产精品午夜福利免费看| 亚洲第一综合天堂另类专| 中文字幕久久精品波多野结| xxxxbbbb欧美残疾人| 久久精品国产精品亚洲| 久久精品久久电影免费理论片| 自拍第一区视频在线观看| 国产午夜在线观看视频| 国产精品久久久久aaaa| 久久精品亚洲精品国产色婷| 免费人成在线观看网站| 久久久久青草线蕉亚洲| 亚洲综合中文字幕第一页| 韩国无码av片在线观看| 国产一级二级三级毛片| 日本一区二区不卡精品| 亚洲无线一二三四区手机| 国产又爽又黄又无遮挡的激情视频| 国产精品美女久久久久久麻豆 | 国产欧美日韩亚洲一区二区三区| 国产熟女丝袜av一二区| 日本一区二区三区在线 |观看| 国产亚洲av产精品亚洲| 18禁成人免费无码网站|