<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      SFT遠不如RL?永不過時的剃刀原則打開終身學習大模型訓練的大門

      0
      分享至



      機器之心報道

      編輯:冷貓

      我們已經進入了大模型時代,越來越多的應用依賴大模型的能力,可以說大模型已經成為智能化基礎設施的核心組成部分,支撐著語言,視覺分析,智能駕駛,機器人等各種下游應用。

      在大模型的實際使用中我們發現,大部分的模型還只是某個細分領域任務的大牛,離我們理想中的 AGI 仍然遙遙無期。

      準確的說,這些投入部署的大模型大多是「靜態」模型,對于其預訓練或微調時優化的系列任務表現良好,但是在動態學習,自我提升這部分能力是缺位的。

      如果我們希望實現更加通用的大模型,使其能像長期的智能助手一樣,隨時間不斷適應新的任務與需求,很多技術瓶頸亟待突破。而最大的挑戰之一就是「災難性遺忘」。

      相信大家對這個概念已經非常熟悉了,災難性遺忘指的是模型在學習新任務時,會丟掉之前學到的技能。擴大模型規模、增加預訓練數據確實能稍微緩解遺忘現象,但始終不能徹底解決。



      圖源:小紅書 @機器壞人(AI 版)

      針對災難性遺忘的問題,研究者們提出了各種各樣的改進方法,包括正則化、經驗回放、參數微調等等。

      但有沒有一種可能,我們對大模型遺忘的研究想的有些太復雜了,如無必要勿增實體的剃刀原則才是根治問題的最佳手段。

      幾天前,來自麻省理工學院(MIT)Improbable AI Lab 的研究者針對該問題發表了一篇研究論文,將奧卡姆的剃刀伸向了大模型后訓練,揭示了大模型遺忘現象的基本規律和訓練策略,目前已在 Alphaxiv 上熱度排名第一。



      • 論文標題:RL's Razor: Why Online Reinforcement Learning Forgets Less
      • 論文鏈接:https://www.arxiv.org/abs/2509.04259v1

      現代 AI 系統面臨一個根本性挑戰:在學習新任務時,它們常常災難性地遺忘先前獲得的知識。這種現象嚴重限制了基礎模型作為長期、持續學習代理的能力。

      這項研究集中在一個驚人的實證觀察上:

      研究者比較了兩種常見的后訓練方式:監督微調(SFT) 和 強化學習(RL)。結果很出乎意料:

      • 即便 SFT 和 RL 在新任務上表現一樣好,SFT 往往是通過 「犧牲舊知識」 來換取新任務的提升;
      • RL 卻能在學習新技能的同時,更多地保留原有能力。

      那么問題來了:為什么 RL 不容易遺忘?

      遺忘定律

      研究揭示了一個新的規律,稱為 「遺忘定律」:

      當模型 π 在新任務 τ 上進行微調時,遺忘程度可以通過 精確預測,即在新任務上評估的微調策略和基線策略之間的KL散度



      這條定律在實踐中非常有用,因為它可以在微調過程中進行測量甚至影響,而無需訪問舊任務數據。盡管其機制仍有待充分理解,但這條定律在不同模型和領域之間的一致性表明它反映了遺忘的一個基本屬性。

      也就是說,微調后模型與原始模型在新任務分布上的差異越大,遺忘就越嚴重。



      偏向 KL - 最小解減少了遺忘。左圖顯示,在能夠解決新任務的策略中,RL 收斂到 KL 散度上最接近基模型的那些策略。右圖顯示,在相同的新任務性能下,這種 KL 偏向使得 RL 相比 SFT 能更好地保留先驗任務的知識。

      研究者進行了廣泛的實驗,以確定什么因素預示著災難性遺忘。他們測試了各種假設,包括權重級變化、表示偏移和分布差異。通過對多個領域和模型架構進行系統性消融研究,他們發現微調策略和基礎策略之間的前向 KL 散度是遺忘的一個驚人一致的預測指標

      前向 KL 散度定義為:



      其中代表微調策略,代表原始模型。





      這種關系適用于不同的訓練算法和超參數,形成了作者所稱的「經驗性遺忘定律」。在使用簡化 ParityMNIST 任務的對照實驗中,這種關系實現了 0.96 的 R2,證明了其預測能力。



      該圖顯示,在帕累托前沿上,RL 始終優于 SFT,在語言模型(數學、科學問答、工具使用)和機器人任務中,RL 在新任務性能和先驗知識保留之間實現了更好的權衡。

      RL 的剃刀:KL 最小路徑原理

      更有意思的是,RL 的優勢正來自于它的 「KL 偏好」。

      • 在新任務上,存在許多能達到高表現的解。
      • RL 天然偏向選擇那些 離原始模型更近(KL 更小) 的解;
      • 而 SFT 則可能收斂到距離原始模型很遠的解,從而帶來嚴重遺忘。

      核心理論貢獻是「RL 的剃刀」—— 即在解決新任務的所有方法中,RL 偏好與原始模型在 KL 散度上最接近的解決方案。這種偏向 KL 最小解的偏好解釋了為什么 RL 比 SFT 遺忘得少。

      為了驗證 KL 假設,研究者構造了一個理想的 「oracle SFT」 分布:它在保證新任務完美準確的同時,也做到 KL 最小化。結果顯示,在這個分布上訓練,遺忘比 RL 還少。這說明 RL 的優勢并不是來自某種「本質上的不同」,而是源于它 隱式地執行了 KL 最小化。只要訓練過程偏向 KL 最小解,模型遺忘就會隨之減少。



      左圖通過使用一個「Oracle SFT」分布來證明這一原理,該分布在實現完美新任務準確性的同時,解析地最小化了 KL 散度。使用這種 Oracle 分布進行訓練產生的遺忘比標準 RL 更少,證實了 KL 最小化是關鍵機制。中圖展示了 KL 散度與遺忘之間的強關聯(R2 = 0.961),而右圖則說明了與 SFT 相比,RL 如何通過較小的 KL 偏移實現高準確性。

      機制分析:在線策略學習與離線策略學習

      為了理解 RL 何種機制驅動了其 KL 保守行為,研究人員比較了四種不同的訓練范式:

      分析揭示,數據收集的在線策略性質是關鍵因素,而不是負面示例的使用。在線策略方法(GRPO 和 1-0 Reinforce)保持較小的 KL 偏移和更好的先驗任務保留,而離線方法(SFT 和 SimPO)無論是否使用負面示例,其行為都相似。

      理論基礎

      作者通過信息幾何的視角,為強化學習的 KL - 最小收斂提供了理論基礎。他們表明,帶有二元獎勵的策略梯度方法可以被理解為在概率空間中執行交替的信息(I-)投影和期望(M-)投影:



      這種迭代過程收斂到可表示策略類中的 KL - 最小最優策略,為「RL 的剃刀」提供了形式化解釋。I - 投影步驟在滿足獎勵約束的同時最小化 KL 散度,而 M - 投影步驟則朝著更高獎勵的動作更新。

      更多數據

      這項研究表明,這一原理超越了簡單的實驗環境。使用中心核對齊(Centered Kernel Alignment)進行的表示保留分析表明,與 SFT 相比,RL 保持與基礎模型更高的相似性:



      此外,對更大模型(70 億和 140 億參數)的實驗證實,僅僅擴大規模并不能消除 SFT 中固有的遺忘權衡:



      總結

      本篇論文的核心貢獻有三點:

      1. 實驗證明:在相同性能下,RL 比 SFT 更不容易遺忘

      2. 提出遺忘定律:新任務上的KL 散度是預測遺忘的關鍵指標。

      3. 理論與實證結合,解釋了RL 的優勢來自其 on-policy 特性

      這項研究為后訓練提供了新的視角:為了實現無遺忘的持續適應,算法應該明確地旨在最小化與基模型之間的 KL 散度,確立了 KL 散度作為持續學習系統的基本設計原則。

      這一原則為設計未來的訓練方法打開了大門,這些方法將 RL 保留先驗知識的能力與 SFT 的效率相結合,使基礎模型能夠真正地「終身學習」。

      對于使用基礎模型的實踐者來說,這項研究提供了明確的指導:當持續適應很重要時,在線策略 RL 方法比標準微調方法具有顯著優勢。KL 散度指標還為模型適應期間的遺忘監測和預測提供了一個實用工具。

      這項工作有助于我們理解為什么像 RLHF 中的 KL 正則化這樣的常見實踐是有效的,將經驗觀察提升到理論基礎。這種原則性理解為開發真正長壽、能夠持續學習而不會災難性遺忘的 AI 代理開辟了新方向。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      樓市大跌30%后,銀行擠滿了瘋狂換日元的香港人

      樓市大跌30%后,銀行擠滿了瘋狂換日元的香港人

      掘金日本房產
      2025-11-04 19:28:57
      買鱸魚,聰明人從不只看大小!牢記這“3不選”,魚販不敢忽悠你

      買鱸魚,聰明人從不只看大?。±斡涍@“3不選”,魚販不敢忽悠你

      阿龍美食記
      2025-10-31 16:36:27
      她被判死刑后,愿捐554億幫國家賺錢,只求饒自己一命,結局如何

      她被判死刑后,愿捐554億幫國家賺錢,只求饒自己一命,結局如何

      諾諾談史
      2025-11-06 10:57:00
      貝克漢姆正式封爵!維多利亞攜全家盛裝慶賀,好大兒和兒媳依然不給面子沒來!

      貝克漢姆正式封爵!維多利亞攜全家盛裝慶賀,好大兒和兒媳依然不給面子沒來!

      英國報姐
      2025-11-05 21:37:20
      204次三雙!底薪威少國王生涯首次三雙:轟23+16+10掀翻無庫勇士

      204次三雙!底薪威少國王生涯首次三雙:轟23+16+10掀翻無庫勇士

      顏小白的籃球夢
      2025-11-06 13:34:45
      在孟加拉國,我不是在旅游,我是在見證什么叫真正的人口壓力

      在孟加拉國,我不是在旅游,我是在見證什么叫真正的人口壓力

      詩意世界
      2025-11-05 18:18:26
      威少23+16+10理查德新高30+7 國王逆轉險勝勇士

      威少23+16+10理查德新高30+7 國王逆轉險勝勇士

      北青網-北京青年報
      2025-11-06 14:07:04
      油價大跌超0.58元/升,今年大跌的油價,11月10日或漲超0.11元/升

      油價大跌超0.58元/升,今年大跌的油價,11月10日或漲超0.11元/升

      油價早知道
      2025-11-06 09:44:10
      1965年,毛主席勸蔣介石回大陸,老蔣提出6個要求,毛主席:同意

      1965年,毛主席勸蔣介石回大陸,老蔣提出6個要求,毛主席:同意

      諾言卿史錄
      2025-07-17 14:23:29
      最佳抗衰老的 4 種運動,讓你比同齡人顯年輕!

      最佳抗衰老的 4 種運動,讓你比同齡人顯年輕!

      增肌減脂
      2025-11-06 13:06:40
      憤怒的川普

      憤怒的川普

      西樓飲月
      2025-11-05 19:14:33
      汪小菲真寵女兒,八萬元的外套一下買兩件,小玥兒穿上很顯貴氣

      汪小菲真寵女兒,八萬元的外套一下買兩件,小玥兒穿上很顯貴氣

      鋭娛之樂
      2025-11-05 08:44:46
      暴怒!詹姆斯沖進場內找裁判!艾頓不懼文班,東契奇狂砍35+9+13

      暴怒!詹姆斯沖進場內找裁判!艾頓不懼文班,東契奇狂砍35+9+13

      Tracy的籃球博物館
      2025-11-06 14:10:08
      北極航道剛冰封,波蘭故技重施中歐班列又停,再不開邊境悔之晚矣

      北極航道剛冰封,波蘭故技重施中歐班列又停,再不開邊境悔之晚矣

      霽寒飄雪
      2025-11-06 13:22:57
      央視怒批,國務院點名封殺!這幾位蒙騙老百姓的大網紅,徹底涼涼

      央視怒批,國務院點名封殺!這幾位蒙騙老百姓的大網紅,徹底涼涼

      大魚簡科
      2025-09-02 19:34:00
      石家莊事件后遺癥!有網友發帖稱今天站長開早會,說話態度好多了

      石家莊事件后遺癥!有網友發帖稱今天站長開早會,說話態度好多了

      火山詩話
      2025-11-05 16:01:52
      “存款搬家”效應顯現,10月銀行理財規模創歷史新高

      “存款搬家”效應顯現,10月銀行理財規模創歷史新高

      第一財經資訊
      2025-11-06 09:19:35
      中央定調,退休新政落地,1970年以前出生的更加受益?一起看看

      中央定調,退休新政落地,1970年以前出生的更加受益?一起看看

      好賢觀史記
      2025-11-06 08:21:45
      小沈陽女兒沈佳潤和媽媽一起出國,母女倆手牽手,她有禮貌又漂亮

      小沈陽女兒沈佳潤和媽媽一起出國,母女倆手牽手,她有禮貌又漂亮

      長歌侃娛
      2025-11-06 11:16:39
      浙江17歲腦癱少年街頭擺攤沒人買,誰料,母親突然心生一計,陌生人直接下單20000份,最后的結局亮了

      浙江17歲腦癱少年街頭擺攤沒人買,誰料,母親突然心生一計,陌生人直接下單20000份,最后的結局亮了

      勵職派
      2025-11-05 12:43:49
      2025-11-06 15:23:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11660文章數 142499關注度
      往期回顧 全部

      科技要聞

      蘋果“認輸”!曝每年10億美元租用谷歌AI

      頭條要聞

      深圳華強北存儲芯片翻倍漲價 商戶:每天都漲 或將更貴

      頭條要聞

      深圳華強北存儲芯片翻倍漲價 商戶:每天都漲 或將更貴

      體育要聞

      送走兩位全明星,公牛成了東部第一

      娛樂要聞

      白百何好友揭露爭獎細節

      財經要聞

      特朗普關稅遭美國高院大法官輪番質疑

      汽車要聞

      方向盤?不存在的 特斯拉 Cybercab亞太首秀

      態度原創

      手機
      健康
      教育
      時尚
      家居

      手機要聞

      高通放話:拿下三星 Galaxy S26 系列75%芯片份額將是“新常態”

      超聲探頭會加重受傷情況嗎?

      教育要聞

      11月高考熱點:高考報名繳費、藝體招考、三大招飛、港澳升學

      中國色特別策劃 | 故宮技藝與古意新生

      家居要聞

      別樣府院 暢享詩意生活

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 加勒比在线中文字幕一区二区| 都安| 中国亚州女人69内射少妇| 久久亚洲人成网站| 亚洲v欧美v国产v在线观看| 国产精品日日摸夜夜添夜夜添2021| 中国亚州女人69内射少妇| 国内精品免费久久久久电影院97 | 国产网友愉拍精品视频手机| 2022最新国产在线不卡a| 国产精品日韩av在线播放| www久久只有这里有精品| 亚洲精品久久| 国产成人精品三上悠亚久久| 久久99国产精品久久99小说| 色窝窝免费播放视频在线| 四虎成人精品国产永久免费| XXXXXHD亚洲日本HD| 精品国产污污免费网站| 亚洲免费最大黄页网站| 国产99青青成人A在线| 強壮公弄得我次次高潮A片| 99国产欧美另类久久久精品| 日韩在线视频观看免费网站| 亚洲人成电影在线天堂色| 爱性久久久久久久久| 97色伦97色伦国产| 无码乱人伦一区二区亚洲| 国产在线无码视频一区二区三区| 国产情侣激情在线对白| 国产精品一区二区传媒蜜臀| 一本色道久久综合亚洲精品| 国产精品一区二区色综合 | 日本高清日本在线免费| 日本阿v片在线播放免费| 亚洲欧洲日产国码久在线| 一个人看的www视频免费观看| av在线播放国产一区| 香蕉影院在线观看| 人妻少妇精品视频三区二区| 伊人色综合久久天天小片|