![]()
本文第一作者楊震,香港科技大學(廣州)博士生,研究方向是多模態理解與生成等。本文通訊作者陳穎聰,香港科技大學(廣州)助理教授,主要研究課題包括生成模型、具身智能等。
隨著對大語言模型的研究越來越深入,關于測試時間擴展 (test-time scaling) 的相關研究正迅速嶄露頭角。研究團隊重新審視測試時行為,發現了一個簡單但尚未得到充分探索的現象:LLM 推理時的不確定性高度局部化 —— 一小部分高熵詞會顯著影響輸出的正確性。
![]()
正是基于這一關鍵觀察,來自香港科技大學(廣州)的研究團隊提出了 Minimal Test-Time Intervention (MTI),其主要包含了 Selective CFG intervention 與 Lightweight negative-prompt guidance 兩種方法。MTI 能夠在推理階段無需額外訓練,就提升大型語言模型的推理能力。
![]()
- 論文標題:Less is More: Improving LLM Reasoning with Minimal Test-Time Intervention
- 論文地址:https://arxiv.org/abs/2510.13940
- Github(代碼已開源):https://github.com/EnVision-Research/MTI
- Huggingface Paper:https://huggingface.co/papers/2510.13940
![]()
Selective CFG intervention:
減弱高熵詞的不確定性
LLM 在多步推理中經常表現出鏈式不穩定性:幾個步驟中的不確定性會放大并導致整個答案偏離軌道。為了找到這種不穩定性的原因,研究團隊分析了 LLM 回答錯誤的問題,并發現錯誤回答的熵更高,而這主要是由回答中的高熵詞導致的。為此,研究團隊提出在高熵詞上使用 Classifier-free Guidance (CFG) 以在降低不確定性的同時穩定推理過程,并能在保持高效率的同時提高性能。
Lightweight negative-prompt guidance:
復用 KV cache 并注入負向詞,節省顯存分配的同時維護更優的無條件空間
研究團隊觀察到,盡管 Selective CFG intervention 僅對高熵詞進行操作,但是仍需為無條件預測支路分配一個新的 KV 緩存,這大大降低了現代 LLM 推理加速器的效率。比如,維護雙 KV 緩存會削弱諸如 vllm 等框架的長上下文處理能力。此外,CFG 源自計算機視覺,其會在訓練過程中引入無條件標簽來學習全局數據分布。相比之下,LLM 中的 CFG 并未訓練建模全局文本分布的能力。因此,研究團隊認為無條件分支應該被視為一個負向提示通道:條件分支專注于生成正確的詞,而無條件分支則被鼓勵生成錯誤的詞。為此,研究團隊重用了條件分支的 KV 緩存,并附加了一條用于引出錯誤詞的短指令,最終實現了在維護更優無條件空間的同時節省了 KV 緩存分配。此外,注入的短語非常靈活,比如研究團隊發現 “OUTPUT ERROR” 就已經產生了優良的效果。
實驗結果
研究團隊在多個任務上進行了測試,其中包括通用任務(Winogrande,MMLU-Pro),代碼任務(Humaneval,Humaneval_plus,LiveCodeBench),數學與科學任務(GPQA-Diamond,MATH500)上進行了系統測試。結果顯示僅在很少的高熵詞上使用 MTI,就能在多個數據集上穩定帶來性能提升,驗證了方法的有效性。比如在 Qwen3-14B-Reasoning 上,僅對 3.5% 的詞執行 MTI,可以為所有任務平均提點 1.58。
![]()
從 AIME2024 的實驗中也發現,MTI 方法具備顯著的優勢。比如在 Qwen3-8B-Reasoning 模型中,僅需對 1.9% 的詞執行 CFG,就可以為準確性帶來 4.9% 的增長,證明了 MTI 在維護高效率的同時,也改進了性能。
![]()
分析實驗
![]()
研究團隊發現,一些低熵詞很難被 CFG 所改變,這是由于 LLM 在低熵詞上對自己的輸出非常確信,所以很難被 CFG 改變,而這些失敗的 CFG 操作便降低了效率。CFG 所能改變的預測主要集中在高熵詞部分,這是由于模型對自己的預測并不自信,因此 CFG 可以修正它。這些發現也從側面反映并非所有的詞都需要使用 CFG。
![]()
研究團隊發現對于基礎模型,詞云中的一些低信息量占位符(例如 **)被語義上更有意義的詞語所取代,從而創造了更豐富的推理分支,并最終提高了準確率。對于推理模型,研究團隊觀察到從單一連接詞(例如 so)向更多樣化的連接詞(例如 however、if、perhaps、alternatively、wait)的轉變。這有助于模型摒棄錯誤的先驗推理鏈,并開啟新的思路,最終得出正確的推理。總體而言,應用該方法可以產生更加多樣化和平衡的詞匯,擴展更多的假設和推理軌跡,最終獲得更好的結果。
總結
總的來看,這項工作揭示了 LLM 在推理階段的一少部分高熵詞會顯著影響輸出正確性,并提出了 Minimal Test-Time Intervention (MTI),其中包含 Selective CFG intervention 和 Lightweight negative-prompt guidance。該方法無需訓練并即插即用,易于與現代加速框架和各種解碼策略或測試時擴展方法進行結合。該方法利用對推理階段高熵詞的擾動,不僅顯著提升了模型在大量任務上的表現,也為未來挖掘 LLM 推理階段的潛力提供了全新的思路。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.