<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      Thinking Machine新研究刷屏!結合RL微調,小模型訓練更具性價比

      0
      分享至

      Thinking Machine最新研究正在被熱議!

      創始人、OpenAI前CTO Mira Murati親自轉發后,一眾圍觀大佬開始驚嘆其研究價值(截不完、根本截不完):



      根據Mira Murati的提煉,原來他們提出了一種讓小模型更懂專業領域的LLM(大語言模型)后訓練方法——On-Policy Distillation (在線策略蒸餾)



      這個方法的精髓,可以打個比方。想象一下,以前訓練AI有兩種主流方式:

      • 實戰演戲(如強化學習等在線策略方法):讓它自己摸索、從錯誤中成長,學得靈活,但非常耗時耗力。
      • 請家教(如監督微調等離線策略方法):直接把正確答案喂給它,效率高,但學得死板。

      而On-Policy Distillation相當于請了一位天才教練。這位教練一邊讓AI自己動手解題(實戰),一邊在它卡殼或犯錯時,立刻給出關鍵提示和正確答案(家教)。

      這樣做最大的好處就是“性價比”超高。實驗結果證明,用這種方法來教小模型數學——達到同樣水平,所需的訓練步驟少了7-10倍;整體算下來,效率提升了50-100倍。

      這意味著,一些資源受限的個人或小公司,也能高效地訓練出在特定領域很能打的“小模型”了。

      包括翁荔在內,難怪大家看完都直呼:優雅、實在是優雅!



      而且啊,當我們扒完相關博客后才發現,On-Policy Distillation的價值還不止于此——

      在線策略蒸餾:結合兩種范式的最佳實踐

      論文指出,要讓模型具備強大的專業領域能力,通常會經歷以下三個過程:

      • 預訓練 (Pre-training): 教會模型通用能力,比如語言使用、廣義推理、世界知識。
      • 中訓練 (Mid-training): 傳授領域知識,比如代碼、醫學數據庫、公司內部文檔。
      • 后訓練 (Post-training): 這是最后也是至關重要的一步,需要引導模型產生目標行為,比如按指令操作、解決數學題、聊天等。

      而他們這次就把目光放在了后訓練上。

      截至目前,后訓練階段誕生了兩大主流范式,即開頭提到的在線策略 (On-policy) 和離線策略 (Off-policy) 訓練。

      考慮到兩種方式各有其優缺點,所有這次他們選擇“取其精華去其糟粕”,來一個巧妙的融合——

      將在線策略的自主探索與離線策略的密集監督結合起來,以創造一個“兩全其美”的訓練框架。



      具體來說,他們核心想讓學生模型在自己生成的軌跡上學習,但每一步(注意是每一步)都由一個更強大的教師模型進行細致的評分和指導。(就像解題一樣,學生給出每一步解題過程,教師給每一步打分)

      相關流程大致如下:

      • 初始化教師模型:找一個實力強大的模型當老師(通用模型或經過專門訓練的專家模型均可),它只負責計算概率,而不需要進行反向傳播更新梯度。
      • 學生采樣軌跡:讓學生模型自主解題,過程中需記錄下它在每一步選擇每個token的對數概率。
      • 教師逐步評分:將學生模型生成的軌跡,原封不動地交給教師模型。教師模型會對這個軌跡的每一個token進行評估,計算出在相同的上下文下,它自己生成這個token的對數概率。然后,通過學生和教師的對數概率之差,可以計算出兩者在每一步的分歧 (Divergence)。
      • 使用分歧作為獎勵進行訓練:最后使用上述分歧作為獎勵信號,來更新學生模型。

      這里重點介紹一下“KL散度 (Negative reverse KL divergence) ”這一評估分歧的指標。



      簡單來說,當學生模型與教師模型的行為一致時,KL散度為零;當學生模型的選擇與教師模型的期望相差甚遠時,KL散度會變得很大,從而產生一個強烈的負面獎勵(懲罰)。

      學生模型的目標就是通過訓練,最小化這個KL散度——換言之,越像老師獎勵越高,越不像懲罰越狠。

      這種逆向KL散度具備兩個非常優秀的特性:

      一是能防作弊。傳統強化學習中,模型可能學會鉆空子,用一些看似正確實則取巧的方式獲得高分。而現在,評判標準直接錨定教師模型的“真知灼見”,學生只有真正學到精髓才能獲得高分,堵死了作弊空間。

      二是讓學習過程更加穩定和聚焦。它能讓學生模型精準鎖定教師模型展現的“最優解法”,避免在多個普通答案間搖擺不定,從而確保學習過程更穩定、結果更出色。

      基于上述方法和特性,他們進行了兩個實驗來驗證其效果。

      實驗一:將32B大模型的數學能力快速教給8B小模型

      教師模型:Qwen3-32B
      學生模型:Qwen3-8B-Base

      所有實驗從一個共同起點開始:學生模型通過傳統訓練(監督微調),在數學基準AIME’24上已達到60分。研究目標是將性能從60分提升至70分。

      為達成目標,研究人員對比了三種方法的計算成本:

      • 繼續傳統訓練:大約需要額外訓練200萬個樣本,計算開銷非常巨大;
      • 強化學習:根據Qwen3團隊的技術報告,在一個相似的SFT初始化模型之上,通過強化學習將性能提升到 67.6%,花費了17920個GPU小時。這個成本與訓練200萬個SFT樣本的成本大致相當;
      • 在線策略蒸餾:僅用了大約150個訓練步驟就達到了70%的目標分數,與外推到200萬樣本的SFT相比,在線策略蒸餾的計算成本砍掉了9~30倍。

      而且如果從GPU小時的角度看,由于教師模型計算對數概率 (log-probs) 的過程可以高效并行化,實際節省的時間成本可能更接近18倍。



      這個實驗有力證明了在線策略蒸餾在計算效率上的巨大優勢。它用遠低于傳統SFT或RL的成本,實現了同等甚至更好的性能提升。

      實驗二:打造兼具知識性與通用性的企業AI助理

      目前存在的問題是:給AI學習新知識(公司內部文檔)時,它會忘記舊技能(對話交流)。

      假如使用傳統微調方法向模型注入內部知識,往往會出現嚴重的“災難性遺忘”——內部知識得分顯著提升(從18%升至43%),但通用能力大幅下降(從85%暴跌至45%)。

      而且無論怎樣調整數據配比,都無法同時保住兩項能力。

      于是他們想到了,當模型因學習新知識而“遺忘”部分通用能力后,可以使用在線策略蒸餾進行修復——讓“失憶”的模型向它自己最初的、能力完整的版本學習。

      結果意外發現,模型的通用能力幾乎完全恢復(從79%回升至83%),同時新知識未被破壞(反而從36%提升至41%)。



      這說明,在線策略蒸餾是解決AI“災難性遺忘”的有效工具。它能夠在不損害新學技能的前提下,精準地恢復模型遺忘的核心能力,為實現AI的“終身學習”提供了關鍵技術支持。

      論文核心作者Kevin Lu

      最后看一下這項研究的核心作者——Kevin Lu(論文唯一單獨提到的)。



      今年8月,Kevin Lu離開OpenAI轉身投入Thinking Machine的懷抱。

      在OpenAI工作期間,他領導了4o-mini發布,并參與o1-mini、o3發布,主要研究強化學習、小模型和合成數據。

      很明顯,這一次的研究也和其之前的工作息息相關。



      論文:
      https://thinkingmachines.ai/blog/on-policy-distillation/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      3:3!亞馬爾獨造2球,巴薩逃過絕殺+歐冠爆冷,4輪7分跌出晉級區

      3:3!亞馬爾獨造2球,巴薩逃過絕殺+歐冠爆冷,4輪7分跌出晉級區

      阿超他的體育圈
      2025-11-06 06:09:11
      37歲李易峰現狀!又胖又禿顏值崩塌,性需求太大,女朋友控制不住

      37歲李易峰現狀!又胖又禿顏值崩塌,性需求太大,女朋友控制不住

      八星人
      2025-11-03 14:53:00
      文晏回應爭獎!直言不認識白百何否認滬圈投資,白百何再次內涵

      文晏回應爭獎!直言不認識白百何否認滬圈投資,白百何再次內涵

      萌神木木
      2025-11-05 22:51:26
      同學聚會每人出9800元,我沒去,隔天警察上門:昨夜你同學出事了

      同學聚會每人出9800元,我沒去,隔天警察上門:昨夜你同學出事了

      紅豆講堂
      2025-11-05 16:50:03
      楊瀚森方回應近期爭議:不存在暴飲暴食,食譜都是由隊內專門制訂,楊瀚森很珍惜征戰NBA的機會

      楊瀚森方回應近期爭議:不存在暴飲暴食,食譜都是由隊內專門制訂,楊瀚森很珍惜征戰NBA的機會

      環球網資訊
      2025-11-05 19:38:05
      “神仙租戶”退租時房內锃亮反光,房東落淚收房:出租五年多,感覺像失戀了,失去這么好一個租戶

      “神仙租戶”退租時房內锃亮反光,房東落淚收房:出租五年多,感覺像失戀了,失去這么好一個租戶

      極目新聞
      2025-11-05 16:08:13
      美財長稱中國是“不可靠的伙伴”,外交部:中國對美政策保持穩定性

      美財長稱中國是“不可靠的伙伴”,外交部:中國對美政策保持穩定性

      澎湃新聞
      2025-11-05 15:18:30
      上海地鐵“霸腿”老人身份曝光!有網友自稱是鄰居,爆料更多內幕

      上海地鐵“霸腿”老人身份曝光!有網友自稱是鄰居,爆料更多內幕

      不寫散文詩
      2025-11-06 00:01:13
      龔正會見格魯吉亞總理科巴希澤

      龔正會見格魯吉亞總理科巴希澤

      澎湃新聞
      2025-11-05 21:42:28
      爸爸去哪兒6個孩子現狀:有人進國家隊,有人出家,有人出國斷聯

      爸爸去哪兒6個孩子現狀:有人進國家隊,有人出家,有人出國斷聯

      觀察鑒娛
      2025-11-04 09:35:35
      果敢四大家族殘害中國人14年,因一神秘女子失蹤遭同盟軍清剿

      果敢四大家族殘害中國人14年,因一神秘女子失蹤遭同盟軍清剿

      真實故事匯
      2024-10-05 11:35:24
      普京不想再打了,俄軍打下來的領土,足夠給1億俄羅斯人一個交待

      普京不想再打了,俄軍打下來的領土,足夠給1億俄羅斯人一個交待

      博覽歷史
      2025-10-27 08:20:12
      少年被打放狠話“等我20歲殺你全家”,五年后男子除夕將仇家滅門

      少年被打放狠話“等我20歲殺你全家”,五年后男子除夕將仇家滅門

      易玄
      2025-11-05 07:01:40
      壞消息,勇士隊庫里在戰勝太陽隊后立即被宣布缺席打國王隊的比賽

      壞消息,勇士隊庫里在戰勝太陽隊后立即被宣布缺席打國王隊的比賽

      好火子
      2025-11-05 23:52:39
      黃金稅改讓整個實物黃金市場進入到了一種極度恐慌的狀態

      黃金稅改讓整個實物黃金市場進入到了一種極度恐慌的狀態

      流蘇晚晴
      2025-11-05 18:15:33
      她是我見過且認為在整個東亞最漂亮的女人

      她是我見過且認為在整個東亞最漂亮的女人

      小椰的奶奶
      2025-11-03 14:38:30
      英國搶走了中國5塊土地,只收復了香港,哪4塊還沒有收回?

      英國搶走了中國5塊土地,只收復了香港,哪4塊還沒有收回?

      百態人間
      2025-11-06 05:10:03
      當下的經濟下行什么時候會復蘇?解決方案是什么呢?

      當下的經濟下行什么時候會復蘇?解決方案是什么呢?

      流蘇晚晴
      2025-09-27 17:48:01
      北京團結湖街道幫“猛火炒飯”開檔口 “地攤廚神”告別東躲西藏

      北京團結湖街道幫“猛火炒飯”開檔口 “地攤廚神”告別東躲西藏

      新浪財經
      2025-11-05 00:55:46
      人氣小生被掰彎了?王傳君示好白百何?王祖藍當大學教授?歐弟將移民日本?姨太問答

      人氣小生被掰彎了?王傳君示好白百何?王祖藍當大學教授?歐弟將移民日本?姨太問答

      毒舌扒姨太
      2025-11-05 22:35:21
      2025-11-06 07:40:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      11633文章數 176326關注度
      往期回顧 全部

      科技要聞

      何小鵬連發四大黑科技!人形機器人走貓步上臺

      頭條要聞

      外媒:中方強硬抨擊荷蘭 安世半導體僵局持續發酵

      頭條要聞

      外媒:中方強硬抨擊荷蘭 安世半導體僵局持續發酵

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發心臟病去世

      財經要聞

      事關加快建設金融強國 中央金融辦發聲

      汽車要聞

      智己LS9入局"9系"混戰 全尺寸SUV市場迎來新變量

      態度原創

      房產
      本地
      健康
      藝術
      公開課

      房產要聞

      最新!海南樓市10月熱銷榜單出爐!

      本地新聞

      這屆干飯人,已經把博物館吃成了食堂

      超聲探頭會加重受傷情況嗎?

      藝術要聞

      Michal Lukasiewicz:木刻般的繪畫

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产精品久久无码不卡黑寡妇| 国产乱子影视频上线免费观看| 亚洲欧美精品在线| 国产精品 亚洲一区二区三区| 性姿势真人免费视频放| 蜜臀av午夜精品福利| 女厕偷窥一区二区三区| 精品国产一区二区在线视| 小嫩批日出水无码视频免费 | 自拍偷区亚洲综合第二区| 久久久久国产一级毛片高清版A| 成在线人永久免费视频播放 | AV最新高清无码专区| 青青热在线精品视频免费观看| 国产午夜影视大全免费观看| 国产成人高清亚洲综合| 亚洲精品免费一二三区| 日韩69永久免费视频| av亚洲在线一区二区| 国产免费无遮挡吃奶视频| 四虎精品视频永久免费| 狠狠躁夜夜躁人人爽天天5| 亚洲精品成人区在线观看| 欧美人与动牲交A免费观看| 国产精品欧美福利久久| 中文字幕有码在线第十页| 国产超碰无码最新上传| 国产精品一在线观看| 国产粉嫩区一区二区三区| 亚洲热妇无码av在线播放| 日韩女同一区二区三区久久| 久久精品无码免费不卡| 亚洲欧美人成电影在线观看| 国产成人高清在线重口视频| 中文成人无字幕乱码精品区| 伊人色综合久久天天| 97久久综合亚洲色hezyo| 色偷偷www.8888在线观看| 亚洲日韩国产二区无码| 天堂影院一区二区三区四区| 成人午夜视频在线|