網易首頁 > 網易號 > 正文申請入駐

Thinking Machine新研究刷屏！結合RL微調，小模型訓練更具性價比

2025-10-28 09:29:17　來源: 量子位

北京舉報

分享至

Thinking Machine最新研究正在被熱議！

創始人、OpenAI前CTO Mira Murati親自轉發后，一眾圍觀大佬開始驚嘆其研究價值（截不完、根本截不完）：

根據Mira Murati的提煉，原來他們提出了一種讓小模型更懂專業領域的LLM（大語言模型）后訓練方法——On-Policy Distillation （在線策略蒸餾）。

這個方法的精髓，可以打個比方。想象一下，以前訓練AI有兩種主流方式：

實戰演戲（如強化學習等在線策略方法）：讓它自己摸索、從錯誤中成長，學得靈活，但非常耗時耗力。
請家教（如監督微調等離線策略方法）：直接把正確答案喂給它，效率高，但學得死板。

而On-Policy Distillation相當于請了一位天才教練。這位教練一邊讓AI自己動手解題（實戰），一邊在它卡殼或犯錯時，立刻給出關鍵提示和正確答案（家教）。

這樣做最大的好處就是“性價比”超高。實驗結果證明，用這種方法來教小模型數學——達到同樣水平，所需的訓練步驟少了7-10倍；整體算下來，效率提升了50-100倍。

這意味著，一些資源受限的個人或小公司，也能高效地訓練出在特定領域很能打的“小模型”了。

包括翁荔在內，難怪大家看完都直呼：優雅、實在是優雅！

而且啊，當我們扒完相關博客后才發現，On-Policy Distillation的價值還不止于此——

在線策略蒸餾：結合兩種范式的最佳實踐

論文指出，要讓模型具備強大的專業領域能力，通常會經歷以下三個過程：

預訓練 (Pre-training): 教會模型通用能力，比如語言使用、廣義推理、世界知識。
中訓練 (Mid-training): 傳授領域知識，比如代碼、醫學數據庫、公司內部文檔。
后訓練 (Post-training): 這是最后也是至關重要的一步，需要引導模型產生目標行為，比如按指令操作、解決數學題、聊天等。

而他們這次就把目光放在了后訓練上。

截至目前，后訓練階段誕生了兩大主流范式，即開頭提到的在線策略 (On-policy) 和離線策略 (Off-policy) 訓練。

考慮到兩種方式各有其優缺點，所有這次他們選擇“取其精華去其糟粕”，來一個巧妙的融合——

將在線策略的自主探索與離線策略的密集監督結合起來，以創造一個“兩全其美”的訓練框架。

具體來說，他們核心想讓學生模型在自己生成的軌跡上學習，但每一步（注意是每一步）都由一個更強大的教師模型進行細致的評分和指導。（就像解題一樣，學生給出每一步解題過程，教師給每一步打分）

相關流程大致如下：

初始化教師模型：找一個實力強大的模型當老師（通用模型或經過專門訓練的專家模型均可），它只負責計算概率，而不需要進行反向傳播更新梯度。
學生采樣軌跡：讓學生模型自主解題，過程中需記錄下它在每一步選擇每個token的對數概率。
教師逐步評分：將學生模型生成的軌跡，原封不動地交給教師模型。教師模型會對這個軌跡的每一個token進行評估，計算出在相同的上下文下，它自己生成這個token的對數概率。然后，通過學生和教師的對數概率之差，可以計算出兩者在每一步的分歧 (Divergence)。
使用分歧作為獎勵進行訓練：最后使用上述分歧作為獎勵信號，來更新學生模型。

這里重點介紹一下“KL散度（Negative reverse KL divergence） ”這一評估分歧的指標。

簡單來說，當學生模型與教師模型的行為一致時，KL散度為零；當學生模型的選擇與教師模型的期望相差甚遠時，KL散度會變得很大，從而產生一個強烈的負面獎勵（懲罰）。

學生模型的目標就是通過訓練，最小化這個KL散度——換言之，越像老師獎勵越高，越不像懲罰越狠。

這種逆向KL散度具備兩個非常優秀的特性：

一是能防作弊。傳統強化學習中，模型可能學會鉆空子，用一些看似正確實則取巧的方式獲得高分。而現在，評判標準直接錨定教師模型的“真知灼見”，學生只有真正學到精髓才能獲得高分，堵死了作弊空間。

二是讓學習過程更加穩定和聚焦。它能讓學生模型精準鎖定教師模型展現的“最優解法”，避免在多個普通答案間搖擺不定，從而確保學習過程更穩定、結果更出色。

基于上述方法和特性，他們進行了兩個實驗來驗證其效果。

實驗一：將32B大模型的數學能力快速教給8B小模型

教師模型：Qwen3-32B
學生模型：Qwen3-8B-Base

所有實驗從一個共同起點開始：學生模型通過傳統訓練（監督微調），在數學基準AIME’24上已達到60分。研究目標是將性能從60分提升至70分。

為達成目標，研究人員對比了三種方法的計算成本：

繼續傳統訓練：大約需要額外訓練200萬個樣本，計算開銷非常巨大；
強化學習：根據Qwen3團隊的技術報告，在一個相似的SFT初始化模型之上，通過強化學習將性能提升到 67.6%，花費了17920個GPU小時。這個成本與訓練200萬個SFT樣本的成本大致相當；
在線策略蒸餾：僅用了大約150個訓練步驟就達到了70%的目標分數，與外推到200萬樣本的SFT相比，在線策略蒸餾的計算成本砍掉了9~30倍。

而且如果從GPU小時的角度看，由于教師模型計算對數概率 (log-probs) 的過程可以高效并行化，實際節省的時間成本可能更接近18倍。

這個實驗有力證明了在線策略蒸餾在計算效率上的巨大優勢。它用遠低于傳統SFT或RL的成本，實現了同等甚至更好的性能提升。

實驗二：打造兼具知識性與通用性的企業AI助理

目前存在的問題是：給AI學習新知識（公司內部文檔）時，它會忘記舊技能（對話交流）。

假如使用傳統微調方法向模型注入內部知識，往往會出現嚴重的“災難性遺忘”——內部知識得分顯著提升（從18%升至43%），但通用能力大幅下降（從85%暴跌至45%）。

而且無論怎樣調整數據配比，都無法同時保住兩項能力。

于是他們想到了，當模型因學習新知識而“遺忘”部分通用能力后，可以使用在線策略蒸餾進行修復——讓“失憶”的模型向它自己最初的、能力完整的版本學習。

結果意外發現，模型的通用能力幾乎完全恢復（從79%回升至83%），同時新知識未被破壞（反而從36%提升至41%）。

這說明，在線策略蒸餾是解決AI“災難性遺忘”的有效工具。它能夠在不損害新學技能的前提下，精準地恢復模型遺忘的核心能力，為實現AI的“終身學習”提供了關鍵技術支持。

論文核心作者Kevin Lu

最后看一下這項研究的核心作者——Kevin Lu（論文唯一單獨提到的）。

今年8月，Kevin Lu離開OpenAI轉身投入Thinking Machine的懷抱。

在OpenAI工作期間，他領導了4o-mini發布，并參與o1-mini、o3發布，主要研究強化學習、小模型和合成數據。

很明顯，這一次的研究也和其之前的工作息息相關。

論文：
https://thinkingmachines.ai/blog/on-policy-distillation/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.