![]()
新智元報道
編輯:LRST
【新智元導讀】大語言模型(LLMs)推理能力近年來快速提升,但傳統方法依賴大量昂貴的人工標注思維鏈。中科院計算所團隊提出新框架PARO,通過讓模型學習固定推理模式自動生成思維鏈,只需大模型標注1/10數據就能達到全量人工標注的性能。這種方法特別適合像金融、審計這樣規則清晰的領域,為高效推理監督提供了全新思路。
過去一年,大語言模型(LLMs)的推理能力迎來爆發式提升,其核心范式——SFT+RLVR——已成為主流。
SFT(Supervised Fine-Tuning)通過高質量的思維鏈(rationales)有監督地微調模型,而RLVR(Reinforcement Learning with Verifiable Rewards)則進一步利用可驗證獎勵信號通過強化學習擴展模型的推理能力,無需思維鏈監督。
然而,為SFT階段標注高質量思維鏈的過程既昂貴又耗時,難以規模化。
中科院計算所團隊通過系統實驗發現,對于「模式化推理」(Patterned Reasoning)任務,并不需要大量人工思維鏈,只需讓模型掌握任務的推理模式即可。
![]()
論文鏈接:https://arxiv.org/pdf/2510.12643
他們提出了一個簡單而高效的框架——PARO(Pattern-Aware LLMs as Rationale AnnOtators),僅用 1/10 的LLM自動標注數據,性能幾乎等同于全量人工標注,為解決「思維鏈監督昂貴、難以擴展」的核心問題提供了全新的視角與方案。
什么是 Patterned Reasoning?
固定模式下的「程序化推理」
并非所有推理任務都要求模型「臨場思考」。
有一類任務,雖然語義復雜,但推理路徑幾乎固定—— 這就是模式化推理任務(Patterned Reasoning Tasks)。
直觀理解就是:不同樣本內容不同,但「解題思路」一模一樣。
常見的例子包括準則驅動的任務,例如:
文本分類任務如主題分類(判斷內容的主題類別),無論文本內容是什么,步驟都是「提取主體線索 → 對比預定義的類別準則 → 輸出結果」。
核查類任務,模型始終遵循「定位事實 → 理解事實 → 分解事實 → 檢查可信來源 → 判斷真偽」的固定流程。
抽取類任務,如關系抽取中,無論處理哪類文本,模型都執行「識別實體 → 實體消歧 → 識別關系(對比預定義的關系類別) → 按模板輸出」的統一框架。
形式化地,這類任務的執行過程可以抽象為,其中:
是穩定的推理模式(Reasoning Pattern),代表任務所需遵循的固定步驟或邏輯框架;
是樣本特定內容(Instance-specific Content),即每個實例不同的文本、數值或事實;
表示將模式應用到內容的過程,生成最終輸出。
自適應推理任務(Adaptive Reasoning Tasks)
在這些任務中,模型無法依賴統一模式,因為不同樣本可能需要完全不同的解題策略。
例如:
數學題:不同題型需要完全不同的推理路線;
編程題:每個任務可能需要不同的數據結構或算法;
規劃與決策問題:初始狀態、目標不同,策略路徑完全不同。
形式上,這類任務可表示為,此時是隨樣本變化的推理模式,模型需要根據輸入靈活選擇最合適的思維路徑。
![]()
為什么Patterned Reasoning值得關注?
研究人員指出,很多金融、審計、法律、風控等工業界的任務(如自定義類別的分類任務、抽取類任務、審核類任務)本質上都是 patterned reasoning——同一套「執行步驟/判斷流程」適用于不同實例,實例間主要差別是輸入內容而非推理策略。
例如該論文主要研究了兩類金融領域的模式化推理任務:
數值語義匹配(NSM):判斷兩處數值是否指代同一個數值事實。 推理流程:定位數值 → 結合上下文理解數值含義 → 語義分解、對齊 → 逐條判斷判斷是否等價。
交易目的分類(TPC):判斷銀行交易流水的用途。推理流程:識別賬戶與交易方向 → 提取關鍵詞 → 對照預定義的分類體系 → 輸出類別。 雖然每條交易內容不同,但規則和決策邏輯是一致的。
這些任務有個共同點:不需要「靈感式推理」,只要遵循固定步驟。
因此,對該類任務,論文提出了關鍵假設:
模型真正需要學習的,不是每條人類思維鏈的具體內容,而是背后統一的「推理模式」。
控制實驗
推理監督中,什么才是關鍵?
論文以NSM任務作為代表性的模式化推理任務。為避免數據污染對結論產生干擾,研究團隊自行收集了10萬條樣本并標注正確答案,同時邀請專家精心標注了1萬條人工思維鏈。
![]()
NSM任務上不同訓練策略的性能比較
通過兩個對照實驗,研究人員揭示了在SFT + RLVR范式下,模型主要在SFT階段學習到任務的推理模式,而人工思維鏈的數量與質量對最終性能的影響并不顯著:
1.數量敏感性實驗:將SFT的人工思維鏈數量從10k隨機減少至1k(保持推理模式不變),SFT階段性能明顯下降;但經過RLVR優化后,兩者差距幾乎消失(圖2a)。
![]()
圖2 控制實驗結果:SFT與RLVR階段的性能演化
結果說明只要 SFT 能夠有效傳授推理模式,RLVR可以通過強大的自我探索能力彌補差距。
2.質量擾動實驗:將25%的人工思維鏈替換為GPT-4.1生成的錯誤思維鏈(但保持整體推理模式不變),SFT+RLVR的最終性能依然接近原版,甚至在部分設置下略有提升——作者推測這是由模型生成的「多樣性」帶來的正向作用。
進一步證明:「推理模式更重要而非每條標注思維鏈都要完美」 。
這些實驗同時揭示了SFT與RLVR的分工機制:
SFT用標注的思維鏈教模型「怎么思路化地解題」;
RLVR利用規則化、可驗證的獎勵信號,將所學推理模式泛化到更多任務實例中。
模型真的學到了「推理模式」嗎?
為了驗證模型是否真的「內化了推理模式」,作者設計了一個頗具啟發性的分析工具,用于刻畫不同訓練策略下模型的推理行為。
核心思路是:
找出那些「一旦換詞就會導致答案變化」的關鍵token——這些高影響力token,正是模型的推理錨點。
具體而言,研究人員提出并實現了「基于采樣的關鍵token檢測」方法。
其基本原理是:
識別模型生成回復中的高熵token 位置(即模型最猶豫的地方);
將該位置已選擇的token替換為若干高概率候選token,并繼續進行多次采樣;
若替換導致最終答案顯著變化,則該位置被判定為「分叉點」(forking token),代表一個對推理決策至關重要的節點。
研究團隊使用該方法提取了經不同訓練策略(SFT+RLVR / pure-RLVR / UFT)得到的模型的 forking token,結果發現:
SFT+RLVR訓練的模型,其forking token更具任務相關性——也就是說,模型的關鍵決策點集中在與任務語義相關的詞匯上。
具體來看(見圖3),SFT+RLVR 模型的forking token多為「任務關鍵詞」(如 different, main_business),而pure-RLVR或UFT模型的forking token則更多是與任務無關的連接詞或泛詞(如but, because)。
這說明在后兩種策略中,模型的推理模式尚未得到良好內化。
由此可見:SFT+RLVR不僅優化了結果,更讓模型真正掌握了任務的推理模式。
![]()
圖3 SFT+RLVR / pure-RLVR / UFT模型的forking token頻率分布
PARO
用模式先驗讓大模型「自標注思維鏈」
基于上述發現,研究人員提出了PARO(Pattern-Aware LLMs as Rationale AnnOtators) —— 讓LLM在「模式提示」下生成思維鏈,取代人工標注。
流程非常簡單實用:
1.Prompt設計
寫清任務說明;
明確推理模式,通過人類專家撰寫,詳細列出步驟化的形式;
給出格式規范和若干示例。
2.生成器選擇
使用強推理模型(論文用 Qwen3-235B-thinking)生成思維鏈。
3.訓練流水線
用生成思維鏈構造SFT數據;
然后走標準的SFT+RLVR優化流程。
研究人員在NSM與TPC兩項任務上實現了該流程并報告了結果,如圖4所示。
![]()
圖4 PARO在NSM與TPC任務上的實驗結果
在NSM數據集上:SFT(1k, PARO)+RLVR的準確率與F1(92.2 / 83.6)幾乎匹配SFT(10k, Human)+RLVR(92.3 / 83.2),僅使用大模型標注的1k條思維鏈即可達到10k人工標注思維鏈相當的性能。這是論文最直觀也最有說服力的結論。
另外PARO優于直接蒸餾大模型內部推理軌跡的方法SFT(1k, Distill)+RLVR。
從實驗到落地
如何應用PARO?
先分類
把推理任務按「是否模式化」分類(參考論文對 pattern 的形式化描述)。只對模式化推理任務嘗試PARO。
小規模嘗試
人工寫任務的詳細推理步驟并附帶少量思維鏈示例,用強推理模型生成少量PARO思維鏈。對比同數量的純人工思維鏈,關注最終指標與標注成本。如果PARO效果接近甚至超越人工標注, 證明可行。
質量監控
用forking-token檢測或人工抽查來評估PARO思維鏈訓練的模型是否真的「對齊了推理模式」;如果關鍵決策點與任務相關性較差,補充更細致的推理模式或者提供更多的數據。
讓模式取代人力
讓模型學會「有章可循地思考」
這篇論文傳遞了一個重要信號:
對于可模式化的推理任務,推理模式比標注思維鏈的數量和質量更關鍵。
PARO給出了一個高性價比、可落地的推理監督新范式:
推理模式提示 → LLM生成思維鏈 → SFT → RLVR
在金融、審計、法律等規則性強的工業場景中,這種思路有極高的實用價值。更重要的是,它隱含著一種趨勢:
推理監督的未來,或許不是「人教模型」,而是「模型教模型」。
參考資料:
https://arxiv.org/pdf/2510.12643
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.