網易首頁 > 網易號 > 正文申請入駐

Thinking Machines發布首個產品Tinker ：大模型后訓練徹底變天

2025-10-02 15:06:14　來源: AI寒武紀

江蘇舉報

分享至

Mira Murati（OpenAI前CTO）的Thinking Machines公司終于發布了第一個產品Tinker，一個為微調大模型設計的靈活API。它的目標是讓研究人員和技術愛好者能專注于算法和數據，而將復雜的分布式訓練交由平臺處理，從而賦能更多人對前沿模型進行研究和定制，簡單來說Tinker可以極大的簡化LLM后訓練過程

北大校友，Thinking Machines聯創Lilian Weng介紹說現在GPU 價格昂貴，并且設置基礎設施以使 GPU 正常工作非常復雜，這使得研究人員和 ML 從業者對尖端模型進行實驗具有挑戰性

提供高質量的研究工具是提高更廣泛社區研究生產力的最有效方法之一，而 Tinker API 是實現這一使命的一步，Tinker API基于團隊在LoRA微調方面的實驗成果構建

核心能力：聚焦算法，告別基建

Tinker的設計理念是，讓用戶能夠專注于LLM微調中真正重要的部分——數據和算法，而平臺則負責處理分布式訓練的繁重工作

用戶只需在自己的CPU機器上編寫一個簡單的Python訓練循環，其中包含數據（或環境）和損失函數。Tinker平臺則負責將用戶指定的計算任務，高效、精確地運行在大量GPU上

值得一提的是，在Tinker上切換不同規模的模型非常簡單，從一個小型模型換到一個大型模型，只需在代碼中更改一個字符串

Tinker并非一個讓微調變簡單的黑盒，而是一個清晰的抽象層。它在為用戶屏蔽分布式訓練復雜性的同時，完整保留了用戶對訓練循環和所有算法細節的控制權。

具體來說，用戶與平臺的職責分工如下：

你關注

你編寫

我們處理

數據集和強化學習環境
你的自定義訓練數據

簡單的Python腳本
在你的CPU上運行

? 高效的分布式訓練
支持Llama 70B, Qwen 235B等大模型

訓練邏輯
你的損失函數、訓練循環和評估

API調用
forward_backward()
optim_step()
sample()
save_state()

? 可靠性
透明地處理硬件故障

主要特性與功能

目前，Tinker服務支持以下功能：

支持多種開源模型： 用戶可以微調Qwen和Llama系列的開源權重模型，包括像Qwen3-235B-A22B這樣的大型混合專家（MoE）模型

采用LoRA微調： Tinker實現的是低秩適應（LoRA）微調，而非全量微調。團隊認為，對于許多重要用例，尤其是在強化學習領域，LoRA能達到與全量微調相當的性能。同時，通過LoRA，平臺可以在多個訓練任務間共享同一計算資源池，從而降低成本

支持權重導出： 用戶可以下載自己訓練好的模型權重，并在Tinker之外的任何地方使用，例如部署到自己選擇的推理服務商

開源Cookbook： 為了幫助用戶更好地獲得理想結果，Tinker發布了一個名為Tinker Cookbook的開源庫，其中包含了在Tinker API之上運行的多種現代訓練后方法的實現。

API的核心功能主要包含在幾個關鍵函數中：

forward_backward：輸入數據和損失函數，平臺將為你計算并累積梯度。
optim_step：使用累積的梯度更新模型。
sample：從你訓練好的模型生成輸出。
其他函數：用于保存和加載權重及優化器狀態。

已被頂尖機構采用

在正式發布前，普林斯頓大學、斯坦福大學、加州大學伯克利分校和Redwood Research等機構已經開始使用Tinker：

普林斯頓哥德爾團隊：用Tinker訓練數學定理證明器。
斯坦福Rotskoff化學小組：微調了一個模型來完成化學推理任務。
伯克利SkyRL小組：運行了一個包含多智能體和多輪工具使用的自定義異步離策略強化學習（RL）訓練循環。
Redwood Research：使用Tinker在困難的AI控制任務上對Qwen3-32B模型進行了強化學習

使用

Tinker現已面向研究人員和開發者開放私有測試版，用戶可以通過官網鏈接注冊并加入等待名單

https://form.typeform.com/to/jH2xNWIg

Tinker初期將免費開放。在未來幾周內，團隊將引入基于使用量的定價方案。對Tinker感興趣的組織也可以通過官網直接聯系

Andrej Karpathy評價

對于研究人員和開發者而言，Tinker極大地簡化了LLM的后訓練過程。你可以保留90%的算法創新主導權（這部分通常與數據、損失函數和算法設計相關），而Tinker則負責處理那些你通常不愿頻繁接觸的硬核難題（如基礎設施、模型本身的前向/反向傳播、分布式訓練）。這意味著，你完成這些工作所需的復雜度，將遠低于常規方式的10%。

相比于市面上更常見的“你上傳數據，我們幫你后訓練模型”這種模式，我認為Tinker找到了一個更巧妙的“切入點”來分解后訓練的復雜度。它既能幫你扛下所有繁重的底層工作，又將大部分關于數據和算法的創新主導權交還給你。

在我看來，整個社區其實仍在探索一個問題：相比于直接用提示詞（Prompt）調用超大模型這種（通常效果已經很強的）基線方法，微調究竟在何種場景下才真正有意義。我觀察到的早期跡象表明，微調的價值更多在于 “收窄任務范圍”，而不是改變模型的“風格”，尤其是在你擁有大量訓練樣本的情況下。一個典型的例子就是分類任務，比如垃圾郵件或內容過濾器，但微調的適用范圍遠不止于此。與其為一個大模型設計一套復雜的少樣本提示（few-shot prompt），不如針對你的特定任務去微調一個更小的模型，這樣做效果可能更好，速度也快得多！

如今，LLM在實際生產中的應用，正越來越多地表現為由多個模型協同合作的復雜工作流（pipeline），它們以有向無環圖（DAG）或流程的形式組合在一起。在這個工作流中，有些組件或許用提示詞就能搞定，但還有大量組件，通過專門的微調模型來處理，效果可能會好得多。Tinker正是讓“微調”這一步變得輕而易舉，從而讓你能方便地去實驗和驗證，在工作流的每一個階段，到底哪種方案才是最優解

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.