<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      又一推理新范式:將LLM自身視作改進操作符,突破長思維鏈極限

      0
      分享至



      機器之心報道

      機器之心編輯部

      推理訓練促使大語言模型(LLM)生成長思維鏈(long CoT),這在某些方面有助于它們探索解決策略并進行自我檢查。雖然這種方式提高了準確性,但也增加了上下文長度、token / 計算成本和答案延遲。

      因此,問題來了:當前的模型能否利用其元認知能力,在這一帕累托前沿上提供其他組合策略,例如在降低上下文長度和 / 或延遲的情況下提高準確性?

      帶著這一問題,Meta 超級智能實驗室、倫敦大學學院、Mila、Anthropic 等機構的研究者進行了探索。從抽象層面來看,他們將 LLM 視為其「思維」的改進操作符,實現一系列可能的策略。



      • 論文標題:Rethinking Thinking Tokens: LLMs as Improvement Operators
      • 論文地址:https://arxiv.org/pdf/2510.01123

      研究者探究了一種推理方法家族 ——并行 - 蒸餾 - 精煉(Parallel-Distill-Refine, PDR),該方法包含以下步驟:(i) 并行生成多樣化草稿;(ii) 將其蒸餾成一個有限的文本工作區;(iii) 在此工作區的基礎上進行精煉,生成的輸出將作為下一輪的種子。重要的是,通過調整并行度,PDR 能夠控制上下文長度(從而控制計算成本),并且上下文長度不再與生成 token 的總數混淆。

      根據當前模型在 PDR 實例中的應用,它們在準確性上優于長思維鏈,同時延遲更低。當將并行度設置為 1 時,得到一個特例 ——順序精煉(Sequential Refinement, SR)(即迭代改進單一候選答案),其表現優于長思維鏈(代價是更高的延遲)。

      這種模型組織的成功引申了一個問題:進一步的訓練是否能夠改變帕累托前沿?為此,研究者訓練了一個 8B 規模的思考模型,使用強化學習(RL)使其與 PDR 推理方法保持一致。

      在具有可驗證答案的數學任務中,迭代 pipeline 在匹配的順序預算下超越了單次推理基準,并且 PDR 方法帶來了最大的提升,在 AIME 2024 和 AIME 2025 數學任務中,準確率分別提高了 11% 和 9%。

      LLM 作為改進操作符

      研究者考慮任務 x(例如數學問題),目標是在給定的 token 預算下生成高質量的最終成果 s_final(解答、證明或程序)。設 M_θ 為一個(可以凍結或訓練的)大語言模型(LLM),并作為改進操作符。給定當前的成果 s_t(單次生成或一組生成結果)和緊湊的文本工作區 C_t,模型會提出一個改進方案:



      讀寫壓縮循環。每個步驟:(i) 讀取當前工作區 C_t,(ii) 通過 M_θ 寫出改進后的成果 s_t+1,(iii) 使用綜合操作符 D 將成果壓縮回一個有限的工作區,為下一個步驟做準備。



      token 預算。研究者在以下兩個預算下評估每種方法:



      操作符實例化

      研究者探究了以下兩種短上下文的迭代精煉流程。

      一是順序精煉(SR,單一候選的深度改進)。

      對于所有 t,設置 C_t ≡ ? ,并且迭代改進單一成果進行 R 輪:



      順序精煉與緊湊工作區。在 SR 中,不提供顯式的工作區。研究者還評估了一種變體,在每一輪之間插入錯誤分析步驟:模型不會直接改進之前的答案,而是首先識別并解釋當前解答中的缺陷,然后生成修訂后的解答。這些筆記在每一輪中充當一個暫時的、局部的工作區。

      二是并行 - 蒸餾 - 精煉(PDR,每輪工作區)。

      研究者不保持持久的記憶。相反,對于每一輪 r = 1, . . . , R,基于當前的有限摘要采樣 M_r 個草稿(并行),然后重新綜合(蒸餾)出一個新的有限摘要供下一輪使用:



      在最后一輪強制執行單次生成 M_R = 1,此生成結果作為最終解答 s_final 返回。摘要是按輪次生成且非持久的,早期文本不會被重播,防止了每次調用時上下文的增長。

      另外,研究者考慮了蒸餾操作符 D 的幾種實際實例化方式:

      • 全局摘要
      • 提取性 top-k 證據(共享)
      • random-k / 自舉工作區

      最后是操作符一致性訓練。前文將 M_θ 視為凍結,并純粹依賴于提示 / 調度。現在,研究者通過在與測試時相同的短上下文迭代接口下優化模型,確保訓練與部署 / 推理的一致性。

      基礎算法。對于基準強化學習(RL),研究者使用來自 Minimax-M1 的 CISPO 目標。對于給定的提示 x,生成器 π(?| θ_old) 使用舊策略 θ_old 生成 G 個回合 {o^G_i=1}。像 sympy 或 math-verify 這樣的自動化檢查器被用來為每個回合分配標量獎勵 r_i(±1)。CISPO 將 GRPO 的組歸一化優勢與 REINFORCE 結合起來,達到以下目標。



      為什么 PDR 訓練時只進行一輪?研究者表示,進行單一的 PDR 回合(包括 M 個早期草稿,蒸餾為 C,以及單次精煉)可以捕捉到關鍵的接口,同時控制 B_total 并穩定強化學習。在推理時,則可以使用相同的操作符運行多個回合(R > 1)。

      本文的數據混合方法在保留長軌跡能力的同時,教會模型在短迭代中進行推理。PDR 被模擬為一次并行→蒸餾→精煉回合,在該過程中,模型觀察 (x, C),并對最終解答軌跡進行可驗證獎勵優化。

      實驗結果

      在預算感知協議下,研究者將順序精煉(SR)和并行 - 蒸餾 - 精煉(PDR)操作符與長思維鏈(CoT)基準進行了比較。他們使用符號驗證器(如 sympy 和 math-verify) 來測量準確性,還將結果報告為順序預算 B_seq(沿著接受路徑的延遲代理)和總預算 B_total(所有調用的 token 數)的函數。

      研究者對 SR 和 PDR 作為推理時操作符應用于數學問題進行了評估。給定一個提示 x,模型生成一個思維軌跡和最終解答。思維跨度由 「...」限定,去除后僅使用自包含的解答作為后續回合輸入的構建。他們在 AIME 2024 和 AIME 2025(AoPS,2025)上進行評估,并報告在 16 次獨立生成中的準確率 - mean@16。

      通過實驗,研究者試圖回答以下四個研究問題:

      • RQ1:短上下文迭代是否能通過比較 {SR, PDR} 與長軌跡 CoT,在匹配的 B_seq 和 B_total 下超越長軌跡?
      • RQ2:通過比較三種 D 變體:全局摘要、提取性 top-k 和 random-k 自舉,找出生成 C^(r) 的最佳蒸餾策略。
      • RQ3:識別給定模型的驗證能力對最終性能的影響。
      • RQ4:操作符一致性訓練是否能夠改變帕累托前沿?他們比較了操作符一致性 + 標準強化學習與標準單軌跡強化學習。

      RQ1:短上下文迭代是否在匹配延遲的情況下超越長軌跡?

      圖 3 和圖 9 報告了在相同有效 token 預算 Bseq 下,AIME 2024 和 AIME 2025 上的準確性。研究者觀察到,從長思維鏈(Long CoT)轉到順序精煉(SR)時,準確性穩定提升;從 SR 到并行 - 蒸餾 - 精煉(PDR)時,這一提升繼續。

      對于 o3-mini,在有效預算為 49k token、每次調用思維預算為 16k token 時,準確性從 76.9(長鏈推理)提升至 81.5(SR)和 86.7(PDR),相較長思維鏈,絕對值提升了 +9.8 個百分比。gemini-2.5-flash 從 SR 到 PDR 的變化小于 o3-mini,表明 gemini-2.5-flash 在自我驗證方面更強。





      RQ2:哪種蒸餾(即摘要)策略效果最佳?

      表 2 研究了在固定輪次(每輪生成次數為 g = [16, 8, 4])和每輪 k = 2 個候選的設置下,PDR 中的蒸餾操作符 D。

      在不同數據集和基礎模型上,樣本級的 top-k 和全局摘要選擇一致性優于共享 top-k 和 random-k,并且隨著思維預算 B 的增加,差距逐漸擴大。

      主要的例外是 AIME 2025 與 o3-mini 的情況,其中全局摘要優于其他方法。研究者推測,o3-mini 的摘要特別擅長從正確和錯誤的草稿中捕捉線索,而這些線索在蒸餾后會促使更強的后續精煉。



      RQ3:驗證能力如何影響推理時間性能?

      從圖 6 和圖 8 中,研究者觀察到注入錯誤候選(Oracle (Incorrect))會導致所有模型的性能大幅下降。對于 o3-mini,性能下降顯著大于 gemini-2.5-flash,這表明后者具有更強的自我驗證和恢復能力。這一趨勢在 AIME 2024 和 AIME 2025 中都得到了體現。





      RQ4:操作符一致性訓練是否推動了帕累托前沿的移動?

      表 3 總結了主要結果。從每個強化學習(RL)目標得到的模型分別在長思維鏈(Long CoT)生成和 PDR 上進行了評估。PDR 強化學習相比基準方法在 AIME 2024 上提升了 +3.34 個百分點,在 AIME 2025 上提升了 +1.67 個百分點。

      從基準 RL 檢查點開始的持續更新,使得額外的 PDR 強化學習帶來了更大的提升,分別在 AIME 2024 和 AIME 2025 上提升了 +5.00 和 +4.59 個百分點。此外,研究者還觀察到,在 PDR RL 訓練下,長思維鏈生成也有一定的增益。

      這些結果表明,使用操作符一致性的強化學習目標進行訓練減少了訓練與部署之間的不匹配,將額外的計算轉化為準確性,而不會增加每次調用的順序預算。



      更多技術細節和實驗結果請參閱原論文。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      多個省級黨委秘書長密集調整

      多個省級黨委秘書長密集調整

      上觀新聞
      2025-11-05 19:29:05
      目測身高188cm,腿都得有155cm,這大骨架看著氣場太霸氣了

      目測身高188cm,腿都得有155cm,這大骨架看著氣場太霸氣了

      手工制作阿殲
      2025-11-06 00:05:42
      特朗普最新發聲,美股集體翻紅,中國資產深夜拉升,黃金爆發!事關關稅合法性,美最高法院展開辯論

      特朗普最新發聲,美股集體翻紅,中國資產深夜拉升,黃金爆發!事關關稅合法性,美最高法院展開辯論

      每日經濟新聞
      2025-11-06 00:32:05
      海港若奪冠是因為沒有樹敵?最新裁判評議報告認定蓉城被錯判

      海港若奪冠是因為沒有樹敵?最新裁判評議報告認定蓉城被錯判

      呀古銅
      2025-11-06 03:31:07
      大轉彎!特朗普再提名馬斯克盟友任NASA局長,曾斥2億美元完成首次商業太空行走

      大轉彎!特朗普再提名馬斯克盟友任NASA局長,曾斥2億美元完成首次商業太空行走

      紅星新聞
      2025-11-05 13:16:38
      臺當局抗議,要求大陸允許赴陸參會,國臺辦提條件:不答應別想來

      臺當局抗議,要求大陸允許赴陸參會,國臺辦提條件:不答應別想來

      小陸搞笑日常
      2025-11-06 02:26:58
      蘇超遭球迷痛批變味!曝泰州奪冠功臣,返回長春,或參加末輪中超

      蘇超遭球迷痛批變味!曝泰州奪冠功臣,返回長春,或參加末輪中超

      小金體壇大視野
      2025-11-05 11:14:36
      市委書記女兒去縣財政局工作,局長處處為難她,某天書記來探班

      市委書記女兒去縣財政局工作,局長處處為難她,某天書記來探班

      秋風專欄
      2025-10-23 11:23:56
      清朝“大辮子”到底多臟?滿頭油光,虱子滿頭,十步之內不能站人

      清朝“大辮子”到底多臟?滿頭油光,虱子滿頭,十步之內不能站人

      小豫講故事
      2025-11-05 06:00:03
      成“老賴”不到72小時,于謙資產被扒底朝天,楊議的話有人信了

      成“老賴”不到72小時,于謙資產被扒底朝天,楊議的話有人信了

      科學發掘
      2025-10-31 14:06:52
      緬甸突襲KK園區后爆“招聘潮”,有人被7萬美元轉賣

      緬甸突襲KK園區后爆“招聘潮”,有人被7萬美元轉賣

      紅星新聞
      2025-11-05 13:06:13
      妻子出軌被抓,丈夫趁機提出特殊要求,妻子求饒:辦不到

      妻子出軌被抓,丈夫趁機提出特殊要求,妻子求饒:辦不到

      蘭姐說故事
      2024-11-02 04:30:02
      發型奇怪、不講衛生、又裝又尷尬,他來《你好星期六》是誰邀請的

      發型奇怪、不講衛生、又裝又尷尬,他來《你好星期六》是誰邀請的

      老汆古裝影視解說
      2025-11-03 22:24:00
      1949年鎮江守備司令視察,到2025年臺灣村長閱兵

      1949年鎮江守備司令視察,到2025年臺灣村長閱兵

      鎮江風情
      2025-11-05 16:57:51
      WTT冠軍賽:首位世界冠軍出局!日本隊遭首敗,林昀儒苦戰5局逆轉

      WTT冠軍賽:首位世界冠軍出局!日本隊遭首敗,林昀儒苦戰5局逆轉

      全言作品
      2025-11-05 19:28:31
      先是圖瓦總統,再是庫頁島一把手,遠東各地對中國,心態完全變了

      先是圖瓦總統,再是庫頁島一把手,遠東各地對中國,心態完全變了

      混沌錄
      2025-10-07 23:43:17
      綿陽市林業局局長鄧飛主動投案,接受監察調查

      綿陽市林業局局長鄧飛主動投案,接受監察調查

      魯中晨報
      2025-11-05 15:31:03
      全球第一,固態電池巨頭,拿下120億訂單!

      全球第一,固態電池巨頭,拿下120億訂單!

      飛鯨投研
      2025-11-05 09:08:06
      56歲才明白:夫妻分房睡久了,男人越能忍,越暴露婚姻的真相

      56歲才明白:夫妻分房睡久了,男人越能忍,越暴露婚姻的真相

      曉艾故事匯
      2025-11-03 08:09:36
      蒯紀聞梅開二度救主,上海U20全運隊驚險殺進八強,81歲老帥徐根寶不服輸

      蒯紀聞梅開二度救主,上海U20全運隊驚險殺進八強,81歲老帥徐根寶不服輸

      上觀新聞
      2025-11-05 18:19:11
      2025-11-06 04:40:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11656文章數 142499關注度
      往期回顧 全部

      科技要聞

      大轉彎!特朗普再提名馬斯克盟友任NASA局長

      頭條要聞

      俄士兵連遭烏軍7架無人機襲擊奇跡生還 視頻披露

      頭條要聞

      俄士兵連遭烏軍7架無人機襲擊奇跡生還 視頻披露

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發心臟病去世

      財經要聞

      事關加快建設金融強國 中央金融辦發聲

      汽車要聞

      智己LS9入局"9系"混戰 全尺寸SUV市場迎來新變量

      態度原創

      親子
      本地
      數碼
      藝術
      手機

      親子要聞

      孩子夾腿觸摸自己不一定都是壞事,但這種情況除外!

      本地新聞

      這屆干飯人,已經把博物館吃成了食堂

      數碼要聞

      小米POCO X1平板現身Geekbench 搭載驍龍7+ Gen 3

      藝術要聞

      一眼攝魂的魔術手:泰國畫師 Razaras 的作品唯美圣潔!自帶發光特效!

      手機要聞

      蘋果Shazam更新26.0版:液態玻璃界面煥新登場

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲老女人区一区二视频| 久久这里都是精品二| 一区二区三区四区自拍视频| 人人爽亚洲aⅴ人人爽av人人片| 国产成人亚洲欧美二区综合| 久久中文字幕一区二区| 中文字幕永久精品国产| 国产精品自拍视频我看看| 中文字幕亚洲一区二区va在线| 91精品国产综合蜜臀蜜臀| 亚洲人成网站77777在线观看| 日韩中文字幕有码av| 亚洲中文无码手机永久| 国产一区二区高潮视频| 日韩美女一区二区三区视频| 亚洲午夜精品久久久久久抢| 99久久无码一区人妻a黑| 久久久av波多野一区二区| 国产第一区二区三区精品| 久久国语对白| 精品国产性色av网站| 99国产欧美另类久久久精品| 线观看的国产成人av天堂| 精品亚洲一区二区三区在线播放| 午夜免费视频国产在线| 国产亚洲制服免视频| 日韩一区二区三区在线视频| 国产成人亚洲综合图区 | 久久人人97超碰精品| 国产伦人人人人人人性| 亚洲国产超清无码专区| 欧美老熟妇又粗又大| 浴室人妻的情欲hd三级国产| 成人无码一区二区三区网站| 久久国产精品伊人青青草| 精品国精品自拍自在线| 中国女人熟毛茸茸A毛片| 色吊丝中文字幕在线观看| 喀喇| 无码人妻丰满熟妇啪啪欧美| 中文字幕在线不卡一区二区|