網易首頁 > 網易號 > 正文申請入駐

只要強化學習1/10成本！翁荔的Thinking Machines盯上了Qwen的黑科技

2025-10-28 11:33:38　來源: 新智元

北京舉報

分享至

新智元報道

編輯：KingHZ 定慧

【新智元導讀】用1/10成本就能「吊打」強化學習，Thinking Machines最新一篇文章開源的這個策略，不看真OUT了！可在Tinker直接復現。

現在的大模型在特定領域能夠達到專家級表現已經不足為奇。

但是能不能讓模型變小的同時，也能在特定領域達到接近專家級表現？

現在通常的答案就是「模型蒸餾」（Model Distillation）。

比如DeepSeek-R1發布時，順帶著也發布了多個蒸餾模型（R1模型參數為671B，蒸餾模型都比較小，1.5B、7B、14B等）。

那還有沒有更好的辦法？

這就是今天要講的On-Policy Distillation（同策略/在線策略蒸餾）。

這是一個Thinking Machines整的新活，這個新策略既有強化學習等在線策略方法的相關性和可靠性；又具備離線策略（Off-policy）方法的數據效率。

Mira Murati認為這個策略可以讓小模型提升特定領域的表現，還能持續學習。

Lilian Weng夸贊新方法「優雅」。認為這個策略提供了一種優雅的方式，將教師模型作為過程獎勵模型來提供稠密獎勵。

在進入正題前，還是簡單提一下這家「奇葩的」公司。

作為一家0產品0模型的公司（準確的說有一個產品Tinker），這家前OpenAI CTO Mira Murati創辦的公司總是能吸引AI圈的注意力。

比如這篇最新的文章就是在他們發布Tinker之后的最新方法，本質是為了驗證他們的這個產品。

Tinker是一個用于微調（fine-tune）開源LLMs（LLM）的開發者API平臺。

過去要微調一個大模型，通常你要買或者租GPU集群、管理訓練腳本、分布式同步、故障恢復、模型并行、存儲、優化器調參……非常繁瑣。

Tinker把這些基礎設施工作抽象掉，讓研究者更專注于「數據、算法、任務」而不是「訓練流水線的運維」。

回到正題。

想要講清楚為何On-Policy Distillation（在線策略蒸餾）能夠讓模型真正「學會」某種領域知識，還要從LLM訓練講起。

順便說一句，這項新工作基于Qwen之前的工作。

以下內容對Thinking Machines的這篇博客進行節選。

大模型為何會有專家級表現？

LLMs能夠在特定領域展現出專家級的性能，這是多種能力疊加的結果：輸入感知、知識檢索、計劃選擇和可靠執行。

為此需要一套訓練方法，這套方法目前大致可分為三個階段：

預訓練用于教授語言使用、廣義推理和世界知識等通用能力。
中期訓練用于傳授代碼、醫療數據庫或公司內部文檔等領域知識。
后訓練用于引導模型產生遵循指令、解決數學問題或聊天等目標行為。

經過更強訓練的小模型，在其專長的領域中，其性能往往優于更大型的通用模型。

使用小模型有諸多益處：出于隱私或安全考慮，它們可以進行本地部署；可以更輕松地持續訓練和更新；同時還能節省推理成本。

要利用這些優勢，就需要為訓練的后期階段選擇正確的方法。

后訓練「學生」模型的方法可分為兩種：

同策略/在線策略訓練（On-policy）從學生模型自身采樣軌跡，并為其分配一定的獎勵。
異策略/離線策略訓練（Off-policy）依賴于外部來源提供的目標輸出，學生通過學習來模仿這些輸出。

例如，我們可能希望訓練一個緊湊模型來解決如下的數學問題：

我們可以通過強化學習進行同策略訓練，依據學生生成的每個軌跡是否解決了問題來進行評分。

評分可由人工完成，也可以由一個能可靠得出正確答案的「教師」模型來完成。

同策略訓練的優點在于，通過對自己生成的樣本進行訓練，學生能以更直接的方式學會避免錯誤。

但強化學習有一個主要缺點：它提供的反饋非常稀疏，無論使用多少Token，每個訓練回合只傳遞固定比特數的信息。

在上面的例子中，學生學到「21」是錯誤答案，并更新模型以避免再次生成它嘗試過的軌跡。

但它并沒有學到錯誤究竟出在哪里——是運算順序搞錯了，還是算術本身出錯了。

這種反饋的稀疏性使得強化學習在許多應用中效率低下。

異策略訓練通常通過監督微調（SFT）來完成：即在一組精選的、面向特定任務的標注樣本上進行訓練。

這些標注樣本可以來源于一個已被證明在該任務上表現出色的教師模型。

我們可以使用蒸餾機制：訓練學生模型來匹配教師模型的輸出分布。

我們在教師軌跡上進行訓練，即包含中間思考步驟在內的、所生成Token的完整序列。

我們可以使用教師模型在每一步的完整「下一Token分布」（常被稱為「logit蒸餾」），也可以僅采樣給定的序列。

實踐中，采樣序列能提供對教師分布的無偏估計，并達到相同的目標。學生模型會根據自身生成序列中各個Token的概率大小進行更新：它自己越不可能生成某個Token，那么朝這個Token更新的幅度就越大。在下方案例中，更新幅度由顏色的深淺表示：

事實證明，從大模型教師進行蒸餾，在訓練小模型遵循指令、進行數理科學推理、從醫療筆記中提取臨床信息以及參與多輪聊天對話等方面非常有效。

用于這些及其他應用的蒸餾數據集通常是開源和公開發布的。

異策略訓練的缺點是，學生模型是在教師模型頻繁遇到的情境下學習，而非它自己將來會頻繁遇到的情境。

這可能導致誤差累積：如果學生模型在早期犯了一個教師模型從未犯過的錯誤，它會發現自己越來越偏離在訓練中觀察到的狀態。

當關心學生模型在長序列上的表現時，這個問題變得尤為突出。為避免這種偏離，學生模型必須學會從自己的錯誤中恢復。

在異策略蒸餾中觀察到的另一個問題是，學生模型可能學會模仿教師的風格和自信程度，但未必能學會其事實的準確性。

如果你在學下棋，同策略強化學習就好比沒有任何教練指導自己下棋。贏棋或輸棋的反饋雖然直接和你自己的下法掛鉤，但每盤棋你只能得到一次反饋，而且它也不會告訴你，究竟是哪幾步棋決定了最終的勝負。

異策略蒸餾則好比觀看一位特級大師下棋——你觀察到的是極其高超的棋步，但這些棋步是在新手棋手幾乎遇不到的局面下走出來的。

研究者希望將強化學習的同策略相關性與蒸餾的密集獎勵信號相結合。

對學下棋而言，這就好比有一位老師，能將你的每一步棋從「大錯」到「絕妙」劃分等級。

對于LLMs的后訓練而言，這就是同策略蒸餾（On-Policy Distillation）。

截圖來自chess.com。分析引擎對每一步棋進行顏色分級，將棋步標記為大錯（紅色）、錯誤（橙色）、不準確（黃色）或絕妙（藍色）。

同策略蒸餾——兩全其美之道

同策略蒸餾的核心思想是：從學生模型中采樣軌跡，并使用一個高性能的教師模型為每條軌跡中的每個Token評分。回到之前的數學例子，同策略蒸餾會為解題過程的每一步打分，懲罰那些導致學生得出錯誤答案的步驟，同時強化那些執行正確的步驟。

本文將探討了同策略蒸餾在特定任務中的應用，例如訓練模型進行數學推理，以及訓練一個兼具領域知識和指令遵循能力的助手模型。

在那些已通過預訓練和中期訓練打下能力基礎的模型上，研究者應用同策略蒸餾。

結果發現，這是一種廉價而強大的后訓練方法，它結合了同策略訓練的優勢與密集的獎勵信號。

同策略蒸餾的工作受到了DAGGER的啟發，這是一種迭代式的SFT算法，包含了教師模型對學生模型所訪問狀態的評估。

它也類似于過程獎勵建模，這是一種對學生模型思維鏈中每一步都進行評分的強化學習方法。

研究者擴展了Agarwal等人和Qwen3團隊先前的同策略蒸餾工作。

通過使用Tinker訓練API，他們復現了Qwen3的成果：利用同策略蒸餾，在推理基準上達到了同等性能，而成本僅為強化學習的一小部分。

用于推理的蒸餾

他們使用蒸餾來訓練Qwen3-8B-Base模型的數學推理能力，并以Qwen3-32B為教師模型。

教師模型（Qwen3-32B）和學生模型（Qwen3-8B-Base）目前都是Tinker支持的模型，因此可以通過Tinker指南復現實驗。

異策略蒸餾

如前所述，所有的實驗都始于以異策略蒸餾形式進行的中期訓練——即在一個由教師生成的樣本數據集上進行監督微調。

用于數學推理的數據集是OpenThoughts-3，這是一個由QwQ-32B（一個與Qwen3-32B類似的推理模型）生成的推理提示詞和響應的集合。

研究者用40萬個提示詞對學生模型（Qwen3-8B-Base）進行完全微調，在數學基準AIME'24上取得了60%的分數。

當然，也可以使用LoRA進行訓練，但當訓練數據量較大時，其效果不如完全微調。

在所有情況下，性能都呈對數線性增長——初始的性能提升成本很低，但越往后成本越高昂。

異策略蒸餾（SFT）的AIME'24得分曲線

在最初的5-10萬個提示詞訓練后，性能遵循一條可預測的對數線性規模變化曲線。在進行大規模、高批量大小的SFT時，察到LoRA的性能較差，這與《LoRA Without Regret》中的預測一致。

研究者將在40萬個提示詞上微調過的模型視為一個檢查點，再嘗試采用各種后訓練方法來進一步提升其性能。

若要將AIME'24基準測試的分數從60%提高到70%，各種方法分別需要付出多大代價。

默認方法是在更多提示詞上進行微調，即延續異策略蒸餾的過程。根據對數線性趨勢進行外推，研究者估計模型在使用約200萬個提示詞訓練后，將在AIME’24上達到70%的分數。

這一外推成立的前提是，規模定律能夠持續生效而不會停滯，但這并非易事。

不過，確實存在一些通過大規模異策略蒸餾將8B模型性能提升至70%以上的案例，例如OpenThoughts-3和DeepSeek-R1-0528-Qwen3-8B。這一外推結果可以用作異策略蒸餾成本性能比的樂觀估計。

強化學習

Qwen3的技術報告指出，在相似的SFT初始化模型基礎上，再進行17,920 GPU小時的強化學習訓練，模型在基準測試上的性能達到了67.6%。

這個成本很難直接與蒸餾的成本進行比較。但如果對SFT訓練棧做一些合理假設，那么該成本與使用200萬個異策略蒸餾提示詞進行訓練的成本大致相當。

Qwen團隊還報告稱，他們通過同策略蒸餾，僅用強化學習十分之一的成本，就在AIME’24上取得了74.4%的更高分數，這為這次的工作提供了靈感。研究人員嘗試在下文的基礎配置中復現這一結果。

同策略蒸餾

作為異策略蒸餾或強化學習的替代方案，研究人員采用了上文所述的同策略蒸餾方法。

從經過40萬提示詞SFT訓練的檢查點開始，同策略蒸餾僅用約150步就使模型在AIME’24上的分數達到了70%。

額外的計算量以訓練FLOPs（浮點運算次數）來衡量。

同策略蒸餾的計算效率明顯高于SFT，對LoRA模型而言尤其如此。

在秩（rank）=32的情況下，經過SFT后，LoRA的性能落后于完全微調13%，但在同策略蒸餾后，差距縮小至僅6%。

跨方法比較計算成本并非易事，因為訓練、采樣和對數概率計算這三者之間的成本比例，會因具體實現方式而顯著不同。下面以FLOPs為單位計算成本，但這種計算方式對那些可以被GPU高效并行化的方法有所不利。特別是，它會高估計算對數概率的實際成本。

結果發現，如果SFT數據集是現成的（如OpenThoughts-3示例），或者其成本可以分攤到多次訓練中，那么基準成本可以節約9倍。

在這種情況下，不計算異策略訓練中教師模型的FLOPs成本，但會計算同策略訓練中的，因為必須運行教師模型來計算學生軌跡的對數概率。由于該計算能以很低的成本在多個GPU間并行化，因此若以GPU小時計，成本節約接近18倍。

然而，大家常常需要為一個沒有現成異策略蒸餾數據集的新任務訓練一個小模型。如果將教師模型在異策略蒸餾中的全部成本都計算在內——即包括從教師模型采樣的額外成本——那么總成本可節約約30倍。

個性化蒸餾

除了訓練小模型在通用任務上達到高性能外，蒸餾的另一個用例是個性化。例如，在對話中遵循特定的語氣和輸出格式，或掌握工具使用和成本預算等能力。

大家通常希望在傳授新領域知識的同時，訓練模型掌握這些行為。

同時訓練這兩者通常很困難，輕量級微調往往不足以實現此目標，因此需要更大規模的中間訓練。

在新知識的基礎上學習后訓練行為，需要一套復雜的后訓練流程，通常包含專有數據和獎勵模型。盡管這種方法對前沿實驗室而言觸手可及，但對于其他從業者來說，復現起來可能十分困難或成本過高。

這部分展示了同策略蒸餾能有效地用于專業化行為的后訓練。

該方法也適用于持續學習或「測試時訓練」：在模型部署后進行更新，同時不降低其基礎性能；將以一個內部文檔上進行中期訓練的模型為例，進行說明。

新知識的訓練會削弱已習得的行為

這次研究將從Qwen3-8B模型開始，而非基礎模型。

Qwen3-8B已經過后訓練，具備了作為助手所需的實用技能，例如通過強化學習進行指令遵循和推理。先前的研究表明，這類強化學習只訓練了原始模型的一小部分子網絡，因此當網絡在大量數據上進行進一步訓練時，這些能力可能很脆弱。

他們研究了這種情況發生的程度，以及如何恢復期望的行為。

為減少這種災難性遺忘，中期訓練中的一個常見方法是混入來自原始模型預訓練分布的「背景數據」。

在案例中，研究人員無法訪問Qwen3的預訓練分布。因此，考慮一個更強但成本更高的基準方案：采用Tulu3提示詞——一個涵蓋廣泛聊天和指令遵循的數據集——并用Qwen3-8B對其重新采樣，以用作聊天背景數據。

由Qwen3-8B采樣的這種「同策略」背景數據，在整個中期訓練過程中充當了正向KL正則化器，從而強化了模型的原始行為。

結果發現，在中期訓練期間，從Qwen3-8B采樣比從Qwen3-32B采樣更能保留聊天能力，這凸顯了數據源的敏感性；Chen等人也發現了類似的同策略SFT結果。

研究者推測，這種方法的有效性甚至可能超過直接訪問原始預訓練數據分布，但代價是必須采樣一個大規模的數據集。

接著，研究者在不同混合比例的內部文檔和聊天數據上對Qwen3-8B進行微調。增加文檔數據的比例能直接提升模型的知識水平。然而，盡管混入至少30%的聊天數據有助于保留大部分指令遵循能力，但沒有一種權重分配能維持模型在IF-eval上的原始性能。

在中期訓練中對內部文檔與背景聊天數據的比例進行掃描。盡管混入少量聊天數據有助于防止災難性的性能衰退，但沒有任何一種權重能維持原始的IF-eval性能。

對于任何給定的混合比例，IF-eval性能在微調過程中會下降。延長訓練難以進一步提升模型的專業化能力。

在所有數據混合比例下，IF-eval的分數在中期訓練期間都會下降。當使用線性學習率（如上圖所示）時，性能下降最終會趨于平緩，并隨著學習率的衰減而緩慢開始恢復。然而，性能從未完全恢復。

另一種常用方法是使用LoRA來約束參數更新，從而減少災難性遺忘的可能性。然而，這種方法仍然不足以保住IF-eval的性能，并且LoRA學到的知識也更少。

當把LoRA應用于已完成后訓練的Qwen3-8B模型，進行個性化中期訓練時，它不僅學到的知識更少，而且仍然會忘記原有的后訓練行為。

同策略蒸餾可恢復后訓練行為

接下來，研究者嘗試在對內部文檔進行微調后，恢復模型的指令遵循行為。

這種行為最初是通過強化學習訓練的，成本高昂，而且它很脆弱。

作為替代，研究者以模型的早期版本Qwen3-8B為教師，在Tulu3提示詞上運行同策略蒸餾。值得注意的是，這個訓練階段與內部文檔數據無關，其唯一目的就是恢復指令遵循能力。

使用模型的早期版本作為教師來「重新喚醒」在微調過程中丟失的能力，這使得同策略蒸餾在持續學習方面展現出巨大潛力。

研究者可以交替進行「微調新數據」和「通過蒸餾恢復行為」這兩個階段，從而讓模型能夠隨著時間的推移不斷學習并保持知識的更新。Cobbe等人先前已經探索過這種階段交替的方法。

預印本：https://arxiv.org/abs/2009.04416

在按70-30比例混合的內部文檔數據和聊天數據上微調后，同策略蒸餾幾乎完全恢復了模型在IF-eval上的性能，且沒有造成任何知識損失；研究者還觀察到，聊天能力與模型在內部問答評估上的「知識」性能之間存在一定的正向遷移。

中期訓練后的領域特定性能（內部問答評估）和聊天性能（IF-eval）

盡管中期訓練會導致Qwen3-8B忘記其后訓練行為，但這些行為可以通過同策略蒸餾以低成本恢復，同時還能保留中期訓練學到的額外知識。

從本質上講，這次把語言模型本身當作了一個獎勵模型，那些高概率的行為會得到獎勵。

這與逆向強化學習（InverseRL）有關：在一個假設的潛在偏好模型中，高概率的行為對應于更有利的獎勵。

從這個意義上說，任何經過指令調優的開源權重模型都可以用作獎勵模型；只需要能夠訪問其compute_logprobs函數即可。

將蒸餾作為整合行為和知識的工具，也已在混合推理模型（Qwen3）和專家蒸餾等領域得到探索。

正如之前研究結果所表明的，對于增強類似的、基于蒸餾的「模型合并」方案而言，同策略學習可以是一個至關重要的工具。

預印本：https://arxiv.org/abs/2510.18874

關于同策略的討論

密集監督：顯著提升計算效率

強化學習和同策略蒸餾都通過反向KL散度進行學習，對基礎策略中的動作空間進行修剪。其區別在于獎勵的密度。

在信息論的視角上，強化學習每個回合只傳遞O(1)比特的信息。相比之下，蒸餾每個回合能傳遞O(N)比特的信息，其中N是Token的數量。那么，通過更密集的獎勵，訓練效率究竟能提升多少呢？

在《LoRA Without Regret》一文中，研究者早疑問。

這次進行了一項實驗來直接比較這兩者：

從Qwen3-8B-Base（未進行額外SFT）開始。
在DeepMath數據集上運行強化學習，流程與《LoRA Without Regret》中的一致。研究人員使用128的LoRA秩。最終得到的模型作為蒸餾過程中的教師模型。
從經強化學習訓練的模型（2）同策略蒸餾回基礎模型（1）。

結果顯示，在模型架構匹配（LoRA秩為128）的情況下，從相同的初始化狀態出發，同策略蒸餾只需約7-10分之一的梯度步數，就能學會經強化學習訓練好的策略，這對應著50-100倍的計算效率提升。

總的來說，所需計算量的減少達到了50-100倍的量級：

強化學習需要在接近評估長度的上下文環境中訓練（以便策略能學習上下文限制，避免格式錯誤懲罰）。相比之下，蒸餾在較短的上下文中也能有效學習，因為獎勵信號不會在軌跡生成結束時發生劇變。

當SFT初始化效果很好時，同策略蒸餾在小得多的批量大小下也能高效工作，因為它每個回合能提供多得多的信息，從而減少了梯度噪聲。

盡管通常難以通過過程監督來訓練強化學習模型，但這些結果表明，作為一個宏觀方向，過程監督和密集獎勵有潛力將學習效率提升一個數量級。這與Lightman等人早期的強化學習研究結果相符。

蒸餾：有效重用數據，提升數據效率

對于從業者而言，收集大規模的訓練提示詞數據集既困難又耗時。因此，研究者希望能夠在訓練中多次重用提示詞。

在使用強化學習時，對同一個提示詞進行多輪次訓練，往往會導致模型死記硬背最終答案，在大模型上尤其如此。

相比之下，同策略蒸餾最小化反向KL散度，學習近似教師模型的完整分布，而非僅僅記憶單個答案。

這使大家能夠從同一個提示詞生成并訓練多個樣本。

研究者重復了上述在數學任務上訓練Qwen3-8B-Base的實驗，但這次僅使用數據集中隨機抽取的一個提示詞。

他們用這一個提示詞連續訓練20步，每步一個批次包含256條軌跡，總共處理了5120條經評分的序列。他們采用順序方式在同一個提示詞上訓練多步，這種做法通常會導致過擬合。

盡管這種方式的計算效率自然較低，但僅憑這一個提示詞的訓練，模型性能就已接近教師模型。

在此例中，對單個訓練樣本進行多輪次訓練，足以讓學生模型學到教師模型在AIME'24上的性能。

強化學習：在語義策略空間中探索

同策略蒸餾能用少得多的訓練步數，復現強化學習所達成的學習效果。

對此結果的一種解讀是，與預訓練不同，強化學習本身并不在梯度更新步驟上消耗大量計算資源。

我們應將強化學習的核心計算開銷理解為「搜索」——即生成策略軌跡并進行功勞分配——而非「更新」本身。

通過隨機梯度下降進行的預訓練，是在探索高維的參數空間。預訓練需要海量信息，且極難被蒸餾，部分原因在于每個網絡的參數空間在某種程度上都是獨一無二的。預訓練所需的梯度更新步驟，其計算成本極高、耗時極長。

相比之下，我們應將強化學習理解為在「語義策略」的空間中進行探索。在每一步，強化學習都會嘗試對過去發現的某個策略進行微調。它并非在參數空間中探索，而是靠運氣「偶然發現」新策略——它從已有的權重集合中進行隨機采樣。

一旦找到一個好的策略，蒸餾便成為學習該策略的捷徑：同策略蒸餾無需對強化學習過程中的所有中間策略進行建模，只需學習最終的策略即可。如果我們只關心最終策略（這在生產環境中很常見），就無需耗費計算資源去建模所有中間過程。

不妨思考一個類比：在科學研究中，我們投入大量時間和資源去尋找答案、探索新思想。一旦某個成果被發現，通過自然語言將其傳授給他人就變得簡單得多。

與之相對的是一些直覺性的身體技能，比如體育運動。這些技能就很難傳授給他人，因為相關知識存在于一種「天生」的語言中（如肌肉記憶），只有我們自己才能輕易理解。

體育運動只能通過反復練習來掌握。

同策略學習：持續學習的利器

在關于個性化蒸餾中，同策略蒸餾能夠將經過專門訓練的行為重新引入模型。

這一能力可推廣至更廣泛的持續學習任務——

在不削弱既有能力的前提下，這些任務要求模型獲取新知識。

先前的研究發現，同策略學習（RL）相比異策略學習，遺忘更少。然而，強化學習只能塑造行為，卻無法有效地傳授新知識，因此它本身不足以支撐持續學習。

正如前文所言，SFT（包括異策略蒸餾）無法有效支持持續學習，因為它會削弱模型的原有行為。

下面一個直接的例子來更深入地探究這一點。

與之前類似，他們通過對Tulu3提示詞進行采樣來構建數據集，采樣模型為Qwen3-32B，溫度設為1.0，無其他修改。因此，該數據集與Qwen3-32B的KL散度期望為零。

當在模型自身的樣本數據集上運行SFT時會發生什么？

結果看到，任何大于零的實際學習率都會導致模型在指令遵循評估上的性能下降！

在Qwen3-32B自身的樣本上運行SFT會導致性能下降

實驗使用了與個性化部分相同的學習率，該學習率是基于實際性能考量而選擇的。

線性學習率可以防止正向KL散度/IF-eval持續衰退，但在學習率衰減至零之前，性能無法完全恢復。

一種可能的解釋是，雖然KL散度的期望為0，但在實踐中，每個有限的批次都會呈現出略微不同的分布。

在這些有限批次上訓練會產生非零的梯度更新，從而使更新后模型的策略偏離其原始狀態。

久而久之，這種在自身樣本上訓練的過程就演變成了異策略訓練，從而導致了與標準異策略訓練相同的錯誤累積和長序列發散問題。

同策略蒸餾始終保持「在策略」狀態，并且由于教師模型固定不變，學生模型會收斂于教師模型的理想行為，不會像SFT在自蒸餾設置中那樣出現性能衰退。

這使得同策略蒸餾成為一個極具潛力的持續學習工具。

結論

通過結合來自學生模型的同策略采樣和來自教師模型的密集監督，同策略蒸餾這一方案能夠以遠低于前沿高算力強化學習的成本，達到同等的能力水平。

在Tinker指南中可找到實現代碼。

他們希望能繼續研究蒸餾的新應用、改進教師監督的新方法，以及提升數據效率和持續學習能力的新途徑。

Thinking Machines的使命是打造兼具前沿性能、高度適應性與個性化的AI模型，以此賦能于人。而同策略蒸餾，正是實現這一宏偉目標的強大工具。

參考資料：

https://x.com/thinkymachines/status/1982856272023302322

https://x.com/lilianweng/status/1982862795961184572ZFnwd

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

新智元

AI產業主平臺領航智能+時代

13799文章數 66238關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

親子

教育

時尚

房產

健康

手機 / 數碼

房產 / 家居

只要強化學習1/10成本！翁荔的Thinking Machines盯上了Qwen的黑科技

蘋果“認輸”！曝每年10億美元租用谷歌AI

深圳華強北存儲芯片翻倍漲價 商戶:每天都漲 或將更貴

深圳華強北存儲芯片翻倍漲價 商戶:每天都漲 或將更貴

送走兩位全明星，公牛成了東部第一

白百何好友揭露爭獎細節

特朗普關稅遭美國高院大法官輪番質疑

方向盤？不存在的 特斯拉 Cybercab亞太首秀

態度原創

上啥幼兒園啊，玩兒吧！ 董路的微博視頻

11月高考熱點：高考報名繳費、藝體招考、三大招飛、港澳升學

中國色特別策劃 | 故宮技藝與古意新生

中旅·三亞藍灣，以一座城市會客廳回應世界的濱海想象

超聲探頭會加重受傷情況嗎？

深圳華強北存儲芯片翻倍漲價商戶:每天都漲或將更貴

深圳華強北存儲芯片翻倍漲價商戶:每天都漲或將更貴

方向盤？不存在的特斯拉 Cybercab亞太首秀

上啥幼兒園啊，玩兒吧！董路的微博視頻