網易首頁 > 網易號 > 正文申請入駐

推理時擾動高熵詞，增強LLM性能

2025-10-29 13:48:26　來源: 機器之心Pro

北京舉報

分享至

本文第一作者楊震，香港科技大學（廣州）博士生，研究方向是多模態理解與生成等。本文通訊作者陳穎聰，香港科技大學（廣州）助理教授，主要研究課題包括生成模型、具身智能等。

隨著對大語言模型的研究越來越深入，關于測試時間擴展 (test-time scaling) 的相關研究正迅速嶄露頭角。研究團隊重新審視測試時行為，發現了一個簡單但尚未得到充分探索的現象：LLM 推理時的不確定性高度局部化 —— 一小部分高熵詞會顯著影響輸出的正確性。

正是基于這一關鍵觀察，來自香港科技大學（廣州）的研究團隊提出了 Minimal Test-Time Intervention (MTI)，其主要包含了 Selective CFG intervention 與 Lightweight negative-prompt guidance 兩種方法。MTI 能夠在推理階段無需額外訓練，就提升大型語言模型的推理能力。

論文標題：Less is More: Improving LLM Reasoning with Minimal Test-Time Intervention
論文地址：https://arxiv.org/abs/2510.13940
Github（代碼已開源）：https://github.com/EnVision-Research/MTI
Huggingface Paper：https://huggingface.co/papers/2510.13940

Selective CFG intervention：

減弱高熵詞的不確定性

LLM 在多步推理中經常表現出鏈式不穩定性：幾個步驟中的不確定性會放大并導致整個答案偏離軌道。為了找到這種不穩定性的原因，研究團隊分析了 LLM 回答錯誤的問題，并發現錯誤回答的熵更高，而這主要是由回答中的高熵詞導致的。為此，研究團隊提出在高熵詞上使用 Classifier-free Guidance (CFG) 以在降低不確定性的同時穩定推理過程，并能在保持高效率的同時提高性能。

Lightweight negative-prompt guidance：

復用 KV cache 并注入負向詞，節省顯存分配的同時維護更優的無條件空間

研究團隊觀察到，盡管 Selective CFG intervention 僅對高熵詞進行操作，但是仍需為無條件預測支路分配一個新的 KV 緩存，這大大降低了現代 LLM 推理加速器的效率。比如，維護雙 KV 緩存會削弱諸如 vllm 等框架的長上下文處理能力。此外，CFG 源自計算機視覺，其會在訓練過程中引入無條件標簽來學習全局數據分布。相比之下，LLM 中的 CFG 并未訓練建模全局文本分布的能力。因此，研究團隊認為無條件分支應該被視為一個負向提示通道：條件分支專注于生成正確的詞，而無條件分支則被鼓勵生成錯誤的詞。為此，研究團隊重用了條件分支的 KV 緩存，并附加了一條用于引出錯誤詞的短指令，最終實現了在維護更優無條件空間的同時節省了 KV 緩存分配。此外，注入的短語非常靈活，比如研究團隊發現 “OUTPUT ERROR” 就已經產生了優良的效果。

實驗結果

研究團隊在多個任務上進行了測試，其中包括通用任務（Winogrande，MMLU-Pro），代碼任務（Humaneval，Humaneval_plus，LiveCodeBench），數學與科學任務（GPQA-Diamond，MATH500）上進行了系統測試。結果顯示僅在很少的高熵詞上使用 MTI，就能在多個數據集上穩定帶來性能提升，驗證了方法的有效性。比如在 Qwen3-14B-Reasoning 上，僅對 3.5% 的詞執行 MTI，可以為所有任務平均提點 1.58。

從 AIME2024 的實驗中也發現，MTI 方法具備顯著的優勢。比如在 Qwen3-8B-Reasoning 模型中，僅需對 1.9% 的詞執行 CFG，就可以為準確性帶來 4.9% 的增長，證明了 MTI 在維護高效率的同時，也改進了性能。

分析實驗

研究團隊發現，一些低熵詞很難被 CFG 所改變，這是由于 LLM 在低熵詞上對自己的輸出非常確信，所以很難被 CFG 改變，而這些失敗的 CFG 操作便降低了效率。CFG 所能改變的預測主要集中在高熵詞部分，這是由于模型對自己的預測并不自信，因此 CFG 可以修正它。這些發現也從側面反映并非所有的詞都需要使用 CFG。

研究團隊發現對于基礎模型，詞云中的一些低信息量占位符（例如 **）被語義上更有意義的詞語所取代，從而創造了更豐富的推理分支，并最終提高了準確率。對于推理模型，研究團隊觀察到從單一連接詞（例如 so）向更多樣化的連接詞（例如 however、if、perhaps、alternatively、wait）的轉變。這有助于模型摒棄錯誤的先驗推理鏈，并開啟新的思路，最終得出正確的推理。總體而言，應用該方法可以產生更加多樣化和平衡的詞匯，擴展更多的假設和推理軌跡，最終獲得更好的結果。

總結

總的來看，這項工作揭示了 LLM 在推理階段的一少部分高熵詞會顯著影響輸出正確性，并提出了 Minimal Test-Time Intervention (MTI)，其中包含 Selective CFG intervention 和 Lightweight negative-prompt guidance。該方法無需訓練并即插即用，易于與現代加速框架和各種解碼策略或測試時擴展方法進行結合。該方法利用對推理階段高熵詞的擾動，不僅顯著提升了模型在大量任務上的表現，也為未來挖掘 LLM 推理階段的潛力提供了全新的思路。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.