<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      EMNLP 2025 | 動態壓縮CoT推理新方法LightThinker來了

      0
      分享至



      隨著 AI 技術的飛速發展,從「快思考」到「慢思考」,大語言模型(LLMs)在處理復雜推理任務上展現出驚人的能力。無論是我們熟知的思維鏈(CoT),還是更復雜的深度思考模式(Thinking),都讓 AI 的回答日益精準、可靠。

      然而,這種性能的提升并非沒有代價。模型在推理過程中會產生大量的中間步驟和文本(tokens),這不僅極大地拖慢了計算速度,還對內存和計算資源造成了巨大的壓力。簡單來說,就是「想得越多,算得越慢,耗得越多」。

      為了解決這一難題,研究者們從人類的認知過程中汲取靈感。想象一下人類在解決一個復雜數學題時的情景:我們通常會在草稿紙上寫下關鍵的計算步驟(如下圖 a 中的黃色高亮部分),而將一些輔助性的思考過程(非高亮部分)放在腦中。



      圖 1:(a) 展示了一個典型的思維鏈推理過程,黃色部分為關鍵步驟。(b) 對比了傳統方案 Vanilla 與 LightThinker 的推理流程。

      本文中,來自浙江大學、螞蟻集團等機構的研究者提出了LightThinker,它模仿了這一高效的思考模式。它訓練 LLM 在推理過程中動態地將冗長的中間思考步驟壓縮成緊湊的表示(gist tokens /cache tokens),然后「扔掉」原始的、繁瑣的推理鏈,僅保留核心摘要以繼續下一步的思考。 這樣一來,存放在上下文窗口中的 tokens 數量被大幅削減,從而顯著降低了內存占用和計算成本。



      • 論文標題:LightThinker: Thinking Step-by-Step Compression
      • 論文鏈接: https://arxiv.org/abs/2502.15589
      • 代碼鏈接: https://github.com/zjunlp/LightThinker

      LightThinker 概覽



      LightThinker 通過訓練的方式讓模型具備這種能力。這涉及到兩個關鍵問題:「何時壓縮?」和「如何壓縮?」。整個過程可以概括為以下三個關鍵步驟:

      第一步:數據重構 —— 在思考流程中植入「壓縮指令」

      LightThinker 的第一步就是改造訓練數據,讓 LLM 明白「壓縮」這個動作的存在和時機 。具體操作是:

      1. 步驟劃分:首先,將模型原本冗長的完整回答 Y,按照語義或段落(即一個完整的「想法」)切分成若干個思維步驟 S1, S2, S3, ...。
      2. 插入特殊指令符:在這些思維步驟之間,插入一組特殊的「指令令牌」4。這組指令符主要包含兩個部分:

      • 緩存令牌 (Cache Tokens, C):這是一組特殊的、用于存儲壓縮后信息的「摘要令牌」。它的作用就像是為即將產生的「思想摘要」預留的空白便簽。
      • 輸出令牌 (Output Token, [o]):這是一個強制性的輸出信號,它的作用是告訴模型:「好了,摘要寫完了,現在請基于這份摘要繼續你下一步的思考」 。

      經過這樣的改造,原本一條完整的思考鏈,就變成了一個「思考步驟 1 S1 →進行壓縮→ 繼續思考步驟 S2 →再次壓縮→ ...」的全新格式。這等于是在模型的學習材料中明確地標注出了「何時」需要進行壓縮。

      注意,研究者在具體實現中,采用換行符作為思維步驟的劃分,此處不存在任何數據精心構造的過程。

      第二步:注意力改造 —— 學會壓縮與理解壓縮的內容

      教會了模型「何時」壓縮,下一步就是最關鍵的如何壓縮。這主要通過一種名為 「Thought-based Attention Mask」的技術來實現,如圖 2 (b) 所示。精確地控制著模型在思考時 “能看什么” 和 “不能看什么” 。

      這個過程分為兩個階段:

      • 壓縮階段(生成思維摘要):當模型需要將思維步驟 Si 壓縮進緩存令牌 C 時,注意力掩碼會強制這些 C 令牌只能「看到」三個東西:

      • 最初的問題 X;
      • 先前已經壓縮好的歷史摘要;
      • 當前正在處理的思維步驟 Si。

      其他所有原始的、未壓縮的思維步驟都會被「遮蔽」。這迫使模型必須將 Si 中的所有關鍵信息高度濃縮并存儲到 C 中 。

      • 生成階段(基于摘要生成思維):當思維步驟 Si 被成功壓縮進 C 之后,更關鍵的一步來了。在生成下一個思緒片段 S (i+1) 時,注意力掩碼會徹底「遮蔽」掉原始的思維步驟 Si。此時,模型只能「看到」最初的問題 X 和包括剛剛生成的摘要在內的所有歷史摘要 。

      通過這種方式,模型被迫學會僅依賴緊湊的「思想摘要」來進行連貫的、層層遞進的推理,而不是依賴越來越長的原始思考全文。

      第三步:動態推理 ——「即用即棄」的高效循環

      經過以上兩個步驟的訓練,LightThinker 模型在實際推理時,就會形成一種高效的動態循環,如圖 1 (b) 和圖 2 (c) 所示,清晰地展示了「生成→壓縮→拋棄」的動態循環過程。下面以圖 1 (b) 為例進行分析:

      1. 模型接收問題,生成第一段思考(Thought 1)。
      2. 觸發壓縮,將 Thought 1 中的核心信息壓縮成緊湊的摘要(CT1)。
      3. 拋棄原文,將冗長的 Thought 1 從上下文中丟棄。
      4. 模型基于問題和摘要(CT1),生成第二段思考(Thought 2)。
      5. 再次壓縮,將 Thought 2 壓縮為摘要(CT2),并丟棄 Thought 2 原文。
      6. 如此循環,直到問題解決。

      通過這種「即用即棄」的機制,LightThinker 確保了模型的上下文窗口始終保持在一個非常小的尺寸,從而解決了因上下文過長導致的內存爆炸和計算緩慢問題,實現了效率與性能的完美平衡。

      圖 3 展示了不同方法在推理過程中上下文長度的變化,其中曲線和坐標軸圍城的面積為我們定義的新指標 Dependency,其意義生成 token 時需要關注 token 的數量總和。



      實驗結果

      研究者在四個數據集和兩個不同的模型上對 LightThinker 進行了廣泛的測試,結果如表 1 所示。



      表 1 主要實驗結果。Acc 為準確率,Time 為平均推理耗時,Peak 為平均峰值 token 占用數量,Dep 為生成 token 時需要關注 token 的數量總和(如圖 3)所示。

      結果表明,在 Qwen 系列模型上,與傳統模型(Vanilla)相比:

      • 峰值內存使用減少 70%:LightThinker 極大地節約了寶貴的內存資源。
      • 推理時間縮短 26%:在保證結果準確性的前提下,思考速度得到了顯著提升。
      • 取得了準確度和效率的平衡。

      此外,在 Llama 上,也取得了準確度和效率的平衡。

      相關工作

      當前關于加速大語言模型(LLMs)推理過程的研究主要集中在四類方法:模型量化、輔助解碼、生成更少的 Token 和減少 KV 緩存。模型量化包括參數量化 [1-2] 和 KV 緩存量化 [3-4],輔助解碼主要包括投機采樣,本節將重點關注后兩類方法。

      需要注意的是,生成長文本和理解長文本代表著不同的應用場景,因此,專門針對長文本生成階段的加速方法(例如,預填充階段加速技術如 AutoCompressor [5]、ICAE [6]、LLMLingua [7]、Activation Beacon [8]、SnapKV [9] 和PyramidKV[10])不在此處討論。以下是后兩類方法的詳細概述。

      生成更少的 Token

      這一類別可以根據推理過程中使用的 token 數量和類型進一步分為三種策略:

      • 離散 Token 減少通過提示工程 Prompt [11-13]、指令微調 [14-15] 或強化學習 [16-17] 等技術來引導 LLM 在推理過程中使用更少的離散 token。例如,TALE [11] 提示 LLM 在預定義的 token 預算內完成任務。Arora 和 Zanette [16] 構建特定數據集并采用強化學習獎勵機制來鼓勵模型生成簡潔準確的輸出,從而減少 token 使用量。
      • 連續 Token 替換這些方法 [18-19] 探索使用連續空間 token 代替傳統的離散詞匯 token。一個代表性例子是CoConut[18],它利用課程學習來訓練 LLM 使用連續 token 進行推理。
      • 無 Token 使用通過在模型層之間內化推理過程,在推理過程中直接生成最終答案而不需要中間 token [20-21]。

      這三種策略都是在模型訓練后實施的,推理過程中不需要額外干預。從技術上講,這些方法的加速效果依次遞增,但代價是 LLM 的泛化性能逐漸下降。此外,第一種策略并不能顯著減少 GPU 內存使用。

      減少 KV 緩存

      這一類別可以分為兩種策略類型:基于剪枝的離散空間 KV 緩存選擇和基于合并的連續空間 KV 緩存壓縮。

      • 基于剪枝的策略設計特定的淘汰策略 [22-25] 在推理過程中保留重要的 token。例如,StreamingLLM[23] 認為初始的 sink token 和最近的 token 是重要的;H2O [22] 關注具有高歷史注意力分數的 token;SepLLM[24] 強調對應于標點符號的 token 是重要的。
      • 基于合并的策略引入錨點 token,訓練 LLM 將歷史重要信息壓縮到這些 token 中,從而實現 KV 緩存合并 [26]。

      這兩種策略都需要在推理過程中進行干預。關鍵區別在于:第一種策略是無需訓練的,但對每個生成的 token 都要應用淘汰策略;而第二種策略是基于訓練的方法,允許 LLM 自主決定何時應用淘汰策略。

      局限性

      受限于自身的數據重構方案(目前分割思維步驟是依賴規則,而不是基于語義)和訓練數據(約 16K 訓練數據),本文方法在數學相關的任務上表現并不出色。

      如下圖所示,展示了 LightThinker 在 GSM8K 上的一個 Bad Case。研究者觀察到,盡管 LLM 在思考過程中得出了正確答案(見上圖中的 Model's Thoughts 字段),但在最終輸出中卻出現了錯誤(見圖中的 Model's Solution 字段)。

      具體來說,在 Model's Solution 字段的第三句話中,第一次出現的「4000」是錯誤的。這表明在第二次壓縮步驟中發生了信息丟失(理論上,「8000」、「4000」和「24000」都應該被壓縮,但 LLM 只壓縮了「4000」和「24000」),導致后續的推理錯誤。這類錯誤在 GSM8K 數據集中頻繁出現,表明當前的壓縮方法對數值的敏感度還不夠。



      參考文獻

      [1] Lin J, Tang J, Tang H, et al. AWQ: Activation-aware weight quantization for on-device LLM compression and acceleration. MLSys 2024.

      [2] Dettmers T, Lewis M, Belkada Y, et al. GPT3.INT8 (): 8-bit matrix multiplication for transformers at scale. NeurIPS 2022.

      [3] Liu Z, Yuan J, Jin H, et al. KIVI: A tuning-free asymmetric 2bit quantization for KV cache. ICML 2024b.

      [4] Hooper C, Kim S, Mohammadzadeh H, et al. KVQuant: Towards 10 million context length LLM inference with KV cache quantization. NeurIPS 2024.

      [5] Chevalier A, Wettig A, Ajith A, et al. Adapting language models to compress contexts. EMNLP 2023.

      [6] Ge T, Hu J, Wang L, et al. In-context autoencoder for context compression in a large language model. ICLR 2024.

      [7] Jiang H, Wu Q, Lin C, et al. LLMLingua: Compressing prompts for accelerated inference of large language models. EMNLP 2023.

      [8] Zhang P, Liu Z, Xiao S, et al. Long context compression with activation beacon. arXiv:2401.03462, 2024b.

      [9] Li Y, Huang Y, Yang B, et al. SnapKV: LLM knows what you are looking for before generation. NeurIPS 2024.

      [10] Cai Z, Zhang Y, Gao B, et al. PyramidKV: Dynamic KV cache compression based on pyramidal information funneling. CoRR abs/2406.02069, 2024.

      [11] Han T, Wang Z, Fang C, et al. Token-budget-aware LLM reasoning. CoRR abs/2412.18547, 2024.

      [12] Ding M, Liu Z, Fu Z, et al. Break the chain: Large language models can be shortcut reasoners. CoRR abs/2406.06580, 2024.

      [13] Nayab S, Rossolini G, Buttazzo G, et al. Concise thoughts: Impact of output length on LLM reasoning and cost. CoRR abs/2407.19825, 2024.

      [14] Liu T, Guo Q, Hu X, et al. Can language models learn to skip steps? NeurIPS 2024a.

      [15] Kang Y, Sun X, Chen L, et al. C3oT: Generating shorter chain-of-thought without compromising effectiveness. CoRR abs/2412.11664, 2024.

      [16] Arora D, Zanette A. Training language models to reason efficiently. arXiv:2502.04463, 2025.

      [17] Luo H, Shen L, He H, et al. O1-pruner: Length-harmonizing fine-tuning for o1-like reasoning pruning. arXiv:2501.12570, 2025.

      [18] Hao S, Sukhbaatar S, Su D, et al. Training large language models to reason in a continuous latent space. CoRR abs/2412.06769, 2024.

      [19] Cheng J, Van Durme B. Compressed chain of thought: Efficient reasoning through dense representations. CoRR abs/2412.13171, 2024.

      [20] Deng Y, Choi Y, Shieber S. From explicit CoT to implicit CoT: Learning to internalize CoT step by step. CoRR abs/2405.14838, 2024.

      [21] Deng Y, Prasad K, Fernandez R, et al. Implicit chain of thought reasoning via knowledge distillation. CoRR abs/2311.01460, 2023.

      [22] Zhang Z, Sheng Y, Zhou T, et al. H2O: Heavy-hitter oracle for efficient generative inference of large language models. NeurIPS 2023.

      [23] Xiao G, Tian Y, Chen B, et al. Efficient streaming language models with attention sinks. ICLR 2024.

      [24] Chen G, Shi H, Li J, et al. SepLLM: Accelerate large language models by compressing one segment into one separator. CoRR abs/2412.12094, 2024.

      [25] Wu J, Wang Z, Zhang L, et al. SCOPE: Optimizing key-value cache compression in long-context generation. CoRR abs/2412.13649, 2024a.

      [26] Pang J, Ye F, Wong D, et al. Anchor-based large language models. ACL 2024

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      100%的責任!中國對荷蘭下達“最后通牒”,外媒:這次真的麻煩了

      100%的責任!中國對荷蘭下達“最后通牒”,外媒:這次真的麻煩了

      大衛聊科技
      2025-11-05 13:47:37
      偉大1-0!亞洲球隊逆襲:歐冠歷史首勝 僅建隊11年 現場萬人狂歡

      偉大1-0!亞洲球隊逆襲:歐冠歷史首勝 僅建隊11年 現場萬人狂歡

      侃球熊弟
      2025-11-06 03:41:47
      國乒教練調整內幕揭曉,王勵勤棄用兩位功臣?改革力度超出預期

      國乒教練調整內幕揭曉,王勵勤棄用兩位功臣?改革力度超出預期

      海闊山遙YAO
      2025-11-05 11:54:46
      在孟加拉國,我不是在旅游,我是在見證什么叫真正的人口壓力

      在孟加拉國,我不是在旅游,我是在見證什么叫真正的人口壓力

      詩意世界
      2025-11-05 18:18:26
      翁帆女士受聘頂尖985大學

      翁帆女士受聘頂尖985大學

      雙一流高校
      2025-11-05 18:22:29
      為什么朝鮮 巴基斯坦、柬埔寨集體對中國變臉?

      為什么朝鮮 巴基斯坦、柬埔寨集體對中國變臉?

      南權先生
      2025-11-05 16:47:32
      水產市場 “麻醉魚” 調查:麻藥泡過的活魚,正悄悄端上你的餐桌?

      水產市場 “麻醉魚” 調查:麻藥泡過的活魚,正悄悄端上你的餐桌?

      前沿天地
      2025-11-05 13:29:46
      “臀大腰粗”的女生怎么穿好看?吊帶背心搭深灰瑜伽褲,高雅自信

      “臀大腰粗”的女生怎么穿好看?吊帶背心搭深灰瑜伽褲,高雅自信

      小喬古裝漢服
      2025-09-29 07:55:03
      剛上臺就變臉?國臺辦發出武統信號后,鄭麗文回應不放棄武力保臺

      剛上臺就變臉?國臺辦發出武統信號后,鄭麗文回應不放棄武力保臺

      小lu侃侃而談
      2025-11-04 19:07:59
      神舟二十號飛船疑遭碎片撞擊,如果修不好,神舟二十二或緊急升天

      神舟二十號飛船疑遭碎片撞擊,如果修不好,神舟二十二或緊急升天

      滄海旅行家
      2025-11-05 17:28:55
      安世半導體風波仍在持續,聞泰科技重要股東突然宣布減持:最高價值超16億元!公司第三季度凈利大增279%

      安世半導體風波仍在持續,聞泰科技重要股東突然宣布減持:最高價值超16億元!公司第三季度凈利大增279%

      每日經濟新聞
      2025-11-05 22:59:09
      官方緊急叫停中國選手參賽,這高危賽事早已扇死過人!

      官方緊急叫停中國選手參賽,這高危賽事早已扇死過人!

      賈話連篇
      2025-11-05 18:28:03
      攜手出局?中超3隊本輪亞冠全不勝+進淘汰區!包攬東亞區榜末3位

      攜手出局?中超3隊本輪亞冠全不勝+進淘汰區!包攬東亞區榜末3位

      我愛英超
      2025-11-05 22:21:52
      阿里高管空降山姆引爆退卡潮,網友一片抵制,山姆員工天塌了?

      阿里高管空降山姆引爆退卡潮,網友一片抵制,山姆員工天塌了?

      眼光很亮
      2025-11-05 11:43:46
      股票起飛前,"換手率"都會出現這樣的特征,不懂的散戶請不要炒股

      股票起飛前,"換手率"都會出現這樣的特征,不懂的散戶請不要炒股

      股經縱橫談
      2025-11-05 17:30:10
      超230萬人想看,預測票房160億,《哪吒2》全冠地位不保了

      超230萬人想看,預測票房160億,《哪吒2》全冠地位不保了

      影視高原說
      2025-11-05 18:19:17
      手機狀態欄變“廣告位”?網友炸鍋,運營商回應情況屬實

      手機狀態欄變“廣告位”?網友炸鍋,運營商回應情況屬實

      雷科技
      2025-11-05 16:49:49
      中國正經歷一場財富大轉移?最富群體是退休老人,年輕人“壓力山大”

      中國正經歷一場財富大轉移?最富群體是退休老人,年輕人“壓力山大”

      小蘿卜絲
      2025-11-05 11:11:28
      離譜!上官正義舉報人販子反遭扣留,被反問:你咋不去幫美國打仗

      離譜!上官正義舉報人販子反遭扣留,被反問:你咋不去幫美國打仗

      烏娛子醬
      2025-11-03 14:27:14
      董軍當面劃下紅線,赫格塞思臉色凝重,向中方承諾不挑起沖突

      董軍當面劃下紅線,赫格塞思臉色凝重,向中方承諾不挑起沖突

      第一軍情
      2025-11-05 14:45:03
      2025-11-06 07:07:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11656文章數 142499關注度
      往期回顧 全部

      科技要聞

      大轉彎!特朗普再提名馬斯克盟友任NASA局長

      頭條要聞

      美國發射洲際彈道導彈 俄羅斯:俄方不參加軍備競賽

      頭條要聞

      美國發射洲際彈道導彈 俄羅斯:俄方不參加軍備競賽

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發心臟病去世

      財經要聞

      事關加快建設金融強國 中央金融辦發聲

      汽車要聞

      智己LS9入局"9系"混戰 全尺寸SUV市場迎來新變量

      態度原創

      本地
      健康
      數碼
      教育
      軍事航空

      本地新聞

      這屆干飯人,已經把博物館吃成了食堂

      超聲探頭會加重受傷情況嗎?

      數碼要聞

      小米POCO X1平板現身Geekbench 搭載驍龍7+ Gen 3

      教育要聞

      科教融合 四川越西舉辦青少年機器人比賽

      軍事要聞

      美國“福特”號航母駛往加勒比海

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产精品久久久久久久久久直播| 亚洲红杏AV无码专区首页| 国产麻豆成人精品av| 亚洲一区二区三区| 精品无码国产日韩制服丝袜| 国产在线拍揄自揄拍无码视频| 亚洲综合一区二区国产精品 | 亚洲码亚洲码天堂码三区| 国产精品午夜福利91| 亚洲成av人片天堂网无码| 偷炮少妇宾馆半推半就激情| 吉木乃县| а∨天堂一区中文字幕| 丰满少妇69激情啪啪无| 日本乱码在线看亚洲乱码| 麻豆a级片| 日韩一区二区三区日韩精品| av性色av久久无码ai换脸| 国产极品视频一区二区三区| 成年女人免费碰碰视频| 午夜精品福利亚洲国产| 国产精品自拍视频免费看| 2021av在线天堂网| 亚洲欧美日韩高清一区二区三区| 国产亚洲欧美精品久久久| 一区二区三区四区精品视频| 晋江市| 久久精品国产一区二区蜜芽| 日日摸夜夜添狠狠添欧美| 伊人色综合久久天天| 两个人的视频www免费| 精品熟女少妇免费久久| 少妇人妻精品一区二区| 久久精品国产99国产精品严洲| 亚洲精品一二三四区| 日本一区二区三区激情视频| 风间由美性色一区二区三区| 亚洲a人片在线观看网址| 亚洲av无码专区在线厂| a级亚洲片精品久久久久久久| 另类 专区 欧美 制服|