<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      僅需10%思維鏈標注,等同全量性能!中科院發布推理監督新范式

      0
      分享至


      新智元報道

      編輯:LRST

      【新智元導讀】大語言模型(LLMs)推理能力近年來快速提升,但傳統方法依賴大量昂貴的人工標注思維鏈。中科院計算所團隊提出新框架PARO,通過讓模型學習固定推理模式自動生成思維鏈,只需大模型標注1/10數據就能達到全量人工標注的性能。這種方法特別適合像金融、審計這樣規則清晰的領域,為高效推理監督提供了全新思路。

      過去一年,大語言模型(LLMs)的推理能力迎來爆發式提升,其核心范式——SFT+RLVR——已成為主流。

      SFT(Supervised Fine-Tuning)通過高質量的思維鏈(rationales)有監督地微調模型,而RLVR(Reinforcement Learning with Verifiable Rewards)則進一步利用可驗證獎勵信號通過強化學習擴展模型的推理能力,無需思維鏈監督。

      然而,為SFT階段標注高質量思維鏈的過程既昂貴又耗時,難以規模化。

      中科院計算所團隊通過系統實驗發現,對于「模式化推理」(Patterned Reasoning)任務,并不需要大量人工思維鏈,只需讓模型掌握任務的推理模式即可。


      論文鏈接:https://arxiv.org/pdf/2510.12643

      他們提出了一個簡單而高效的框架——PARO(Pattern-Aware LLMs as Rationale AnnOtators),僅用 1/10 的LLM自動標注數據,性能幾乎等同于全量人工標注,為解決「思維鏈監督昂貴、難以擴展」的核心問題提供了全新的視角與方案。

      什么是 Patterned Reasoning?



      固定模式下的「程序化推理」

      并非所有推理任務都要求模型「臨場思考」。

      有一類任務,雖然語義復雜,但推理路徑幾乎固定—— 這就是模式化推理任務(Patterned Reasoning Tasks)

      直觀理解就是:不同樣本內容不同,但「解題思路」一模一樣。

      常見的例子包括準則驅動的任務,例如:

      • 文本分類任務如主題分類(判斷內容的主題類別),無論文本內容是什么,步驟都是「提取主體線索 → 對比預定義的類別準則 → 輸出結果」。

      • 核查類任務,模型始終遵循「定位事實 → 理解事實 → 分解事實 → 檢查可信來源 → 判斷真偽」的固定流程。

      • 抽取類任務,如關系抽取中,無論處理哪類文本,模型都執行「識別實體 → 實體消歧 → 識別關系(對比預定義的關系類別) → 按模板輸出」的統一框架。

      形式化地,這類任務的執行過程可以抽象為,其中:

      是穩定的推理模式(Reasoning Pattern),代表任務所需遵循的固定步驟或邏輯框架;

      是樣本特定內容(Instance-specific Content),即每個實例不同的文本、數值或事實;

      表示將模式應用到內容的過程,生成最終輸出。

      自適應推理任務(Adaptive Reasoning Tasks)

      在這些任務中,模型無法依賴統一模式,因為不同樣本可能需要完全不同的解題策略。

      例如:

      • 數學題:不同題型需要完全不同的推理路線;

      • 編程題:每個任務可能需要不同的數據結構或算法;

      • 規劃與決策問題:初始狀態、目標不同,策略路徑完全不同。

      形式上,這類任務可表示為,此時是隨樣本變化的推理模式,模型需要根據輸入靈活選擇最合適的思維路徑。


      為什么Patterned Reasoning值得關注?

      研究人員指出,很多金融、審計、法律、風控等工業界的任務(如自定義類別的分類任務、抽取類任務、審核類任務)本質上都是 patterned reasoning——同一套「執行步驟/判斷流程」適用于不同實例,實例間主要差別是輸入內容而非推理策略。

      例如該論文主要研究了兩類金融領域的模式化推理任務:

      數值語義匹配(NSM):判斷兩處數值是否指代同一個數值事實。 推理流程:定位數值 → 結合上下文理解數值含義 → 語義分解、對齊 → 逐條判斷判斷是否等價。

      交易目的分類(TPC)判斷銀行交易流水的用途。推理流程:識別賬戶與交易方向 → 提取關鍵詞 → 對照預定義的分類體系 → 輸出類別。 雖然每條交易內容不同,但規則和決策邏輯是一致的。

      這些任務有個共同點:不需要「靈感式推理」,只要遵循固定步驟。

      因此,對該類任務,論文提出了關鍵假設:

      模型真正需要學習的,不是每條人類思維鏈的具體內容,而是背后統一的「推理模式」。

      控制實驗

      推理監督中,什么才是關鍵?

      論文以NSM任務作為代表性的模式化推理任務。為避免數據污染對結論產生干擾,研究團隊自行收集了10萬條樣本并標注正確答案,同時邀請專家精心標注了1萬條人工思維鏈。


      NSM任務上不同訓練策略的性能比較

      通過兩個對照實驗,研究人員揭示了在SFT + RLVR范式下,模型主要在SFT階段學習到任務的推理模式,而人工思維鏈的數量與質量對最終性能的影響并不顯著:

      1.數量敏感性實驗將SFT的人工思維鏈數量從10k隨機減少至1k(保持推理模式不變),SFT階段性能明顯下降;但經過RLVR優化后,兩者差距幾乎消失(圖2a)。


      圖2 控制實驗結果:SFT與RLVR階段的性能演化

      結果說明只要 SFT 能夠有效傳授推理模式,RLVR可以通過強大的自我探索能力彌補差距。

      2.質量擾動實驗將25%的人工思維鏈替換為GPT-4.1生成的錯誤思維鏈(但保持整體推理模式不變),SFT+RLVR的最終性能依然接近原版,甚至在部分設置下略有提升——作者推測這是由模型生成的「多樣性」帶來的正向作用。

      進一步證明:「推理模式更重要而非每條標注思維鏈都要完美」 。

      這些實驗同時揭示了SFT與RLVR的分工機制

      SFT用標注的思維鏈教模型「怎么思路化地解題」;

      RLVR利用規則化、可驗證的獎勵信號,將所學推理模式泛化到更多任務實例中。

      模型真的學到了「推理模式」嗎?

      為了驗證模型是否真的「內化了推理模式」,作者設計了一個頗具啟發性的分析工具,用于刻畫不同訓練策略下模型的推理行為。

      核心思路是:

      找出那些「一旦換詞就會導致答案變化」的關鍵token——這些高影響力token,正是模型的推理錨點

      具體而言,研究人員提出并實現了「基于采樣的關鍵token檢測」方法。

      其基本原理是:

      識別模型生成回復中的高熵token 位置(即模型最猶豫的地方);

      • 將該位置已選擇的token替換為若干高概率候選token,并繼續進行多次采樣;

      • 若替換導致最終答案顯著變化,則該位置被判定為「分叉點」(forking token),代表一個對推理決策至關重要的節點。

      研究團隊使用該方法提取了經不同訓練策略(SFT+RLVR / pure-RLVR / UFT)得到的模型的 forking token,結果發現:

      SFT+RLVR訓練的模型,其forking token更具任務相關性——也就是說,模型的關鍵決策點集中在與任務語義相關的詞匯上。

      具體來看(見圖3),SFT+RLVR 模型的forking token多為「任務關鍵詞」(如 different, main_business),而pure-RLVR或UFT模型的forking token則更多是與任務無關的連接詞或泛詞(如but, because)。

      這說明在后兩種策略中,模型的推理模式尚未得到良好內化。

      由此可見:SFT+RLVR不僅優化了結果,更讓模型真正掌握了任務的推理模式。


      圖3 SFT+RLVR / pure-RLVR / UFT模型的forking token頻率分布

      PARO

      用模式先驗讓大模型「自標注思維鏈」

      基于上述發現,研究人員提出了PARO(Pattern-Aware LLMs as Rationale AnnOtators) —— 讓LLM在「模式提示」下生成思維鏈,取代人工標注。

      流程非常簡單實用:

      1.Prompt設計

      寫清任務說明;

      明確推理模式,通過人類專家撰寫,詳細列出步驟化的形式;

      給出格式規范和若干示例。

      2.生成器選擇

      使用強推理模型(論文用 Qwen3-235B-thinking)生成思維鏈。

      3.訓練流水線

      用生成思維鏈構造SFT數據;

      然后走標準的SFT+RLVR優化流程。

      研究人員在NSM與TPC兩項任務上實現了該流程并報告了結果,如圖4所示。


      圖4 PARO在NSM與TPC任務上的實驗結果

      在NSM數據集上:SFT(1k, PARO)+RLVR的準確率與F1(92.2 / 83.6)幾乎匹配SFT(10k, Human)+RLVR(92.3 / 83.2),僅使用大模型標注的1k條思維鏈即可達到10k人工標注思維鏈相當的性能。這是論文最直觀也最有說服力的結論。

      另外PARO優于直接蒸餾大模型內部推理軌跡的方法SFT(1k, Distill)+RLVR。

      從實驗到落地

      如何應用PARO?

      先分類

      把推理任務按「是否模式化」分類(參考論文對 pattern 的形式化描述)。只對模式化推理任務嘗試PARO。

      小規模嘗試

      人工寫任務的詳細推理步驟并附帶少量思維鏈示例,用強推理模型生成少量PARO思維鏈。對比同數量的純人工思維鏈,關注最終指標與標注成本。如果PARO效果接近甚至超越人工標注, 證明可行。

      質量監控

      用forking-token檢測或人工抽查來評估PARO思維鏈訓練的模型是否真的「對齊了推理模式」;如果關鍵決策點與任務相關性較差,補充更細致的推理模式或者提供更多的數據。

      讓模式取代人力

      讓模型學會「有章可循地思考」

      這篇論文傳遞了一個重要信號:

      對于可模式化的推理任務,推理模式標注思維鏈的數量和質量更關鍵。

      PARO給出了一個高性價比、可落地的推理監督新范式:

      推理模式提示 → LLM生成思維鏈 → SFT → RLVR

      在金融、審計、法律等規則性強的工業場景中,這種思路有極高的實用價值。更重要的是,它隱含著一種趨勢:

      推理監督的未來,或許不是「人教模型」,而是「模型教模型」。

      參考資料:

      https://arxiv.org/pdf/2510.12643

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      朱元璋御審貪官幼女,女孩卻指著龍椅問了一句,滿朝文武瞬間死寂

      朱元璋御審貪官幼女,女孩卻指著龍椅問了一句,滿朝文武瞬間死寂

      凱裕說故事
      2025-10-28 11:34:31
      超60人報名競選國足主帥,半數來自西班牙,10人進面試僅3名中方教練

      超60人報名競選國足主帥,半數來自西班牙,10人進面試僅3名中方教練

      齊魯壹點
      2025-11-05 21:03:18
      利潤暴降45%,“非洲手機之王”為何突然不“香”了?

      利潤暴降45%,“非洲手機之王”為何突然不“香”了?

      鳳凰網財經
      2025-11-05 09:42:39
      歐冠狂歡夜:拜仁2-1贏巴黎登頂 利物浦送皇馬首敗 阿森納10連勝

      歐冠狂歡夜:拜仁2-1贏巴黎登頂 利物浦送皇馬首敗 阿森納10連勝

      侃球熊弟
      2025-11-05 05:09:46
      42歲《驚天魔盜團》男星杰西·艾森伯格,無償捐腎給陌生人!

      42歲《驚天魔盜團》男星杰西·艾森伯格,無償捐腎給陌生人!

      ChicMyGeek
      2025-11-05 18:54:05
      痛心!38歲江蘇美女教師梁嬌去世,丈夫去世不到百天,女兒才7歲

      痛心!38歲江蘇美女教師梁嬌去世,丈夫去世不到百天,女兒才7歲

      云舟史策
      2025-06-23 09:35:09
      天吶!鞏俐這身材太驚艷了,胸圍幾乎到肚臍,狀態卻依舊十分亮眼

      天吶!鞏俐這身材太驚艷了,胸圍幾乎到肚臍,狀態卻依舊十分亮眼

      TVB的四小花
      2025-10-22 02:25:03
      馬斯克預言:5年后不再有手機和App,AI將在1-2年內大規模取代編程和內容創作類工作【附人工智能行業市場分析】

      馬斯克預言:5年后不再有手機和App,AI將在1-2年內大規模取代編程和內容創作類工作【附人工智能行業市場分析】

      前瞻網
      2025-11-04 15:15:19
      坑慘全家!沈伯洋搞臺獨,兒子求學被拒生意要黃

      坑慘全家!沈伯洋搞臺獨,兒子求學被拒生意要黃

      易昂楊
      2025-11-05 15:42:25
      山姆APP已將商品頭圖改為實拍圖

      山姆APP已將商品頭圖改為實拍圖

      大象新聞
      2025-11-04 18:48:02
      完了完了!突然一級拉傷!這可是NBA大年狀元郎

      完了完了!突然一級拉傷!這可是NBA大年狀元郎

      籃球實戰寶典
      2025-11-05 20:24:28
      蘋果因忘記禁用一個關鍵設置,新版App Store前端代碼被完整扒下

      蘋果因忘記禁用一個關鍵設置,新版App Store前端代碼被完整扒下

      IT之家
      2025-11-05 08:21:08
      吳京《鏢人》官宣,謝霆鋒李連杰甘愿作配,票房能否破50億?

      吳京《鏢人》官宣,謝霆鋒李連杰甘愿作配,票房能否破50億?

      娛樂圈筆娛君
      2025-11-05 14:27:27
      憤怒的川普

      憤怒的川普

      西樓飲月
      2025-11-05 19:14:33
      這位護理師的身材讓人無法抵擋,竟是超辣的桃里れあ!

      這位護理師的身材讓人無法抵擋,竟是超辣的桃里れあ!

      大為看點丶
      2025-11-05 17:20:08
      貂皮大衣水洗退貨后續:店主驅車300公里,買家身份流出 警方回應

      貂皮大衣水洗退貨后續:店主驅車300公里,買家身份流出 警方回應

      不寫散文詩
      2025-11-05 17:35:10
      樓市大跌30%后,銀行擠滿了瘋狂換日元的香港人

      樓市大跌30%后,銀行擠滿了瘋狂換日元的香港人

      掘金日本房產
      2025-11-04 19:28:57
      狂送7連敗!聯盟唯一全敗隊伍,一手好牌打稀爛,還不如趁早散伙

      狂送7連敗!聯盟唯一全敗隊伍,一手好牌打稀爛,還不如趁早散伙

      陌識
      2025-11-06 00:37:43
      記者:當初是佩普要國足跟越南打對攻,還開小會不讓陳洋參加

      記者:當初是佩普要國足跟越南打對攻,還開小會不讓陳洋參加

      懂球帝
      2025-11-05 14:43:13
      醫生警告:一旦吃上他汀藥,這6種食物必須戒掉,再吃有肝損風險

      醫生警告:一旦吃上他汀藥,這6種食物必須戒掉,再吃有肝損風險

      朗威游戲說
      2025-11-05 14:24:47
      2025-11-06 03:48:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      13794文章數 66238關注度
      往期回顧 全部

      科技要聞

      大轉彎!特朗普再提名馬斯克盟友任NASA局長

      頭條要聞

      俄士兵連遭烏軍7架無人機襲擊奇跡生還 視頻披露

      頭條要聞

      俄士兵連遭烏軍7架無人機襲擊奇跡生還 視頻披露

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發心臟病去世

      財經要聞

      事關加快建設金融強國 中央金融辦發聲

      汽車要聞

      智己LS9入局"9系"混戰 全尺寸SUV市場迎來新變量

      態度原創

      旅游
      房產
      親子
      時尚
      教育

      旅游要聞

      壩河15公里游船航線開始試航

      房產要聞

      最新!海南樓市10月熱銷榜單出爐!

      親子要聞

      孩子夾腿觸摸自己不一定都是壞事,但這種情況除外!

      今年一定要擁有這件大衣,復古又時髦!

      教育要聞

      最新:2026年南京中考體育考試內容及評分標準曝光!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 欧美成人www免费全部网站| 老鸭窝在钱视频| 南漳县| 亚洲www永久成人网站| 亚洲大尺度视频在线播放| 一区二区三区国产亚洲网站| 亚洲国产成人AⅤ片在线观看| 性色av免费观看| 国产精品中文字幕第一页| 国产盗摄xxxx视频xxxx| 亚洲区综合区小说区激情区| 四虎影院176| 日韩精品 在线一区二区| 亚洲一区二区中文av| 亚洲人成网站观看在线观看| 欧美色丁香| 国产午夜91福利一区二区| 依兰县| 丰满人妻一区二区三区色| 国产一区二区在线有码| 日本三级理论久久人妻电影| 国产午夜亚洲精品福利| 日本污视频在线观看| 国产精品无码无在线观看| 精品一卡2卡三卡4卡乱码精品视频| 波多野结av在线无码中文免费| 久久人人爽人人爽人人av| 狠狠综合久久av一区二| 久久99久国产精品66| 日韩亚av无码一区二区三区| 蜜臀AⅤ永久无码精品| 四虎库影成人在线播放| 亚洲午夜久久久久久噜噜噜| 女同久久一区二区三区| 4hu44四虎www在线影院麻豆| 日韩美av一区二区三区| 91密桃精品国产91久久| 最新国产精品好看的精品| 狠狠久久五月综合色和啪| 成人国产乱对白在线观看| 亚洲首页一区任你躁xxxxx|