Thinking Machine最新研究正在被熱議!
創始人、OpenAI前CTO Mira Murati親自轉發后,一眾圍觀大佬開始驚嘆其研究價值(截不完、根本截不完):

根據Mira Murati的提煉,原來他們提出了一種讓小模型更懂專業領域的LLM(大語言模型)后訓練方法——On-Policy Distillation (在線策略蒸餾)。
![]()
這個方法的精髓,可以打個比方。想象一下,以前訓練AI有兩種主流方式:
- 實戰演戲(如強化學習等在線策略方法):讓它自己摸索、從錯誤中成長,學得靈活,但非常耗時耗力。
- 請家教(如監督微調等離線策略方法):直接把正確答案喂給它,效率高,但學得死板。
而On-Policy Distillation相當于請了一位天才教練。這位教練一邊讓AI自己動手解題(實戰),一邊在它卡殼或犯錯時,立刻給出關鍵提示和正確答案(家教)。
這樣做最大的好處就是“性價比”超高。實驗結果證明,用這種方法來教小模型數學——達到同樣水平,所需的訓練步驟少了7-10倍;整體算下來,效率提升了50-100倍。
這意味著,一些資源受限的個人或小公司,也能高效地訓練出在特定領域很能打的“小模型”了。
包括翁荔在內,難怪大家看完都直呼:優雅、實在是優雅!
![]()
而且啊,當我們扒完相關博客后才發現,On-Policy Distillation的價值還不止于此——
在線策略蒸餾:結合兩種范式的最佳實踐
論文指出,要讓模型具備強大的專業領域能力,通常會經歷以下三個過程:
- 預訓練 (Pre-training): 教會模型通用能力,比如語言使用、廣義推理、世界知識。
- 中訓練 (Mid-training): 傳授領域知識,比如代碼、醫學數據庫、公司內部文檔。
- 后訓練 (Post-training): 這是最后也是至關重要的一步,需要引導模型產生目標行為,比如按指令操作、解決數學題、聊天等。
而他們這次就把目光放在了后訓練上。
截至目前,后訓練階段誕生了兩大主流范式,即開頭提到的在線策略 (On-policy) 和離線策略 (Off-policy) 訓練。
考慮到兩種方式各有其優缺點,所有這次他們選擇“取其精華去其糟粕”,來一個巧妙的融合——
將在線策略的自主探索與離線策略的密集監督結合起來,以創造一個“兩全其美”的訓練框架。
![]()
具體來說,他們核心想讓學生模型在自己生成的軌跡上學習,但每一步(注意是每一步)都由一個更強大的教師模型進行細致的評分和指導。(就像解題一樣,學生給出每一步解題過程,教師給每一步打分)
相關流程大致如下:
- 初始化教師模型:找一個實力強大的模型當老師(通用模型或經過專門訓練的專家模型均可),它只負責計算概率,而不需要進行反向傳播更新梯度。
- 學生采樣軌跡:讓學生模型自主解題,過程中需記錄下它在每一步選擇每個token的對數概率。
- 教師逐步評分:將學生模型生成的軌跡,原封不動地交給教師模型。教師模型會對這個軌跡的每一個token進行評估,計算出在相同的上下文下,它自己生成這個token的對數概率。然后,通過學生和教師的對數概率之差,可以計算出兩者在每一步的分歧 (Divergence)。
- 使用分歧作為獎勵進行訓練:最后使用上述分歧作為獎勵信號,來更新學生模型。
這里重點介紹一下“KL散度 (Negative reverse KL divergence) ”這一評估分歧的指標。
![]()
簡單來說,當學生模型與教師模型的行為一致時,KL散度為零;當學生模型的選擇與教師模型的期望相差甚遠時,KL散度會變得很大,從而產生一個強烈的負面獎勵(懲罰)。
學生模型的目標就是通過訓練,最小化這個KL散度——換言之,越像老師獎勵越高,越不像懲罰越狠。
這種逆向KL散度具備兩個非常優秀的特性:
一是能防作弊。傳統強化學習中,模型可能學會鉆空子,用一些看似正確實則取巧的方式獲得高分。而現在,評判標準直接錨定教師模型的“真知灼見”,學生只有真正學到精髓才能獲得高分,堵死了作弊空間。
二是讓學習過程更加穩定和聚焦。它能讓學生模型精準鎖定教師模型展現的“最優解法”,避免在多個普通答案間搖擺不定,從而確保學習過程更穩定、結果更出色。
基于上述方法和特性,他們進行了兩個實驗來驗證其效果。
實驗一:將32B大模型的數學能力快速教給8B小模型
教師模型:Qwen3-32B
學生模型:Qwen3-8B-Base
所有實驗從一個共同起點開始:學生模型通過傳統訓練(監督微調),在數學基準AIME’24上已達到60分。研究目標是將性能從60分提升至70分。
為達成目標,研究人員對比了三種方法的計算成本:
- 繼續傳統訓練:大約需要額外訓練200萬個樣本,計算開銷非常巨大;
- 強化學習:根據Qwen3團隊的技術報告,在一個相似的SFT初始化模型之上,通過強化學習將性能提升到 67.6%,花費了17920個GPU小時。這個成本與訓練200萬個SFT樣本的成本大致相當;
- 在線策略蒸餾:僅用了大約150個訓練步驟就達到了70%的目標分數,與外推到200萬樣本的SFT相比,在線策略蒸餾的計算成本砍掉了9~30倍。
而且如果從GPU小時的角度看,由于教師模型計算對數概率 (log-probs) 的過程可以高效并行化,實際節省的時間成本可能更接近18倍。
![]()
這個實驗有力證明了在線策略蒸餾在計算效率上的巨大優勢。它用遠低于傳統SFT或RL的成本,實現了同等甚至更好的性能提升。
實驗二:打造兼具知識性與通用性的企業AI助理
目前存在的問題是:給AI學習新知識(公司內部文檔)時,它會忘記舊技能(對話交流)。
假如使用傳統微調方法向模型注入內部知識,往往會出現嚴重的“災難性遺忘”——內部知識得分顯著提升(從18%升至43%),但通用能力大幅下降(從85%暴跌至45%)。
而且無論怎樣調整數據配比,都無法同時保住兩項能力。
于是他們想到了,當模型因學習新知識而“遺忘”部分通用能力后,可以使用在線策略蒸餾進行修復——讓“失憶”的模型向它自己最初的、能力完整的版本學習。
結果意外發現,模型的通用能力幾乎完全恢復(從79%回升至83%),同時新知識未被破壞(反而從36%提升至41%)。
![]()
這說明,在線策略蒸餾是解決AI“災難性遺忘”的有效工具。它能夠在不損害新學技能的前提下,精準地恢復模型遺忘的核心能力,為實現AI的“終身學習”提供了關鍵技術支持。
論文核心作者Kevin Lu
最后看一下這項研究的核心作者——Kevin Lu(論文唯一單獨提到的)。
![]()
今年8月,Kevin Lu離開OpenAI轉身投入Thinking Machine的懷抱。
在OpenAI工作期間,他領導了4o-mini發布,并參與o1-mini、o3發布,主要研究強化學習、小模型和合成數據。
很明顯,這一次的研究也和其之前的工作息息相關。
![]()
論文:
https://thinkingmachines.ai/blog/on-policy-distillation/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.