《自然》丨里程碑式論文揭示 DeepSeek的秘密

2025-09-18 14:08:47　來源: 邸報

上海舉報

分享至

Secrets of DeepSeek AI model revealed in landmark paper

第一份同行評審研究顯示，一家中國初創(chuàng)公司如何以 30 萬美元的價格打造出震撼市場的大語言模型。

DeepSeek表示，其R1模型并非通過復制其他大型語言模型（LLM）生成的示例來學習。圖片來源：David Talukdar/ZUMA via Alamy

中國公司DeepSeek的研究人員表示，其功能強大的人工智能模型R1的成功——該模型在1月份發(fā)布時曾導致美國股市暴跌——并非依賴于使用競爭對手的模型輸出結果進行訓練。這一說法出自今日發(fā)表在《自然》雜志上的R1模型同行評審版本及附帶發(fā)布的文件中。

R1模型旨在擅長數(shù)學、編程等“推理”類任務，作為美國科技公司開發(fā)工具的競品，其成本更低。作為一款“開源權重”模型，任何人都可下載使用；截至目前，它已是人工智能社區(qū)平臺Hugging Face上最受歡迎的此類模型，下載量已達1090萬次。

該論文更新了1月份發(fā)布的預印本，預印本中介紹了DeepSeek如何對標準大型語言模型進行優(yōu)化，以應對推理任務。論文的補充材料首次披露了R1模型的訓練成本：僅相當于29.4萬美元。此外，總部位于杭州的DeepSeek公司為構建R1所基于的基礎大型語言模型，還投入了約600萬美元；但即便總成本相加，仍遠低于業(yè)界認為的競品模型數(shù)千萬美元的研發(fā)費用。DeepSeek表示，R1模型的訓練主要使用英偉達H800芯片，而該型號芯片在2023年因美國出口管制政策被禁止售往中國。

嚴格的評審流程

R1被認為是首個經(jīng)歷同行評審流程的主流大型語言模型。“這是一個非常值得歡迎的先例，”Hugging Face的機器學習工程師劉易斯·湯斯塔爾（Lewis Tunstall）表示，他參與了該《自然》論文的評審工作，“如果我們不建立公開分享這一過程大部分內容的規(guī)范，就很難評估這些系統(tǒng)是否存在風險。”

為回應同行評審意見，DeepSeek團隊在描述中減少了擬人化表述，并補充闡明了技術細節(jié)，包括模型訓練所用的數(shù)據(jù)類型及其安全性。“經(jīng)過嚴格的同行評審流程，無疑有助于驗證該模型的有效性和實用性，”俄亥俄州立大學（位于哥倫布市）的人工智能研究員孫歡（Huan Sun，音譯）表示，“其他公司也應采取同樣的做法。”

DeepSeek的主要創(chuàng)新在于，采用了一種自動化的試錯方法（即“純強化學習”）來打造R1模型。該過程通過獎勵模型得出正確答案來優(yōu)化其性能，而非教導它遵循人類篩選的推理示例。該公司表示，正是通過這種方式，其模型自主習得了解決問題的推理類策略，例如無需遵循人類設定的方法就能驗證自身運算過程。為提高效率，該模型還會通過估算為自身的嘗試打分，而非使用單獨的算法執(zhí)行此項任務——這種技術被稱為“群體相對策略優(yōu)化”。

孫歡指出，該模型在人工智能研究人員中“影響力頗大”。“截至2025年，幾乎所有在大型語言模型中應用強化學習的研究工作，或多或少都可能受到了R1模型的啟發(fā)。”

訓練技術爭議

1月份有媒體報道稱，總部位于美國加利福尼亞州舊金山、開發(fā)出ChatGPT及“o系列”推理模型的OpenAI公司研究人員認為，DeepSeek在訓練R1時使用了OpenAI模型的輸出結果——這種方法理論上可在減少資源投入的同時，快速提升模型性能。

DeepSeek并未在論文中公開其訓練數(shù)據(jù)。但在與評審專家的溝通中，該公司研究人員表示，R1模型并非通過復制OpenAI模型生成的推理示例來學習。不過他們也承認，與大多數(shù)其他大型語言模型一樣，R1的基礎模型是通過網(wǎng)絡數(shù)據(jù)訓練的，因此不可避免會吸收互聯(lián)網(wǎng)上已存在的各類人工智能生成內容。

孫歡表示，這一反駁“與我們在任何學術出版物中能看到的論證一樣有說服力”。湯斯塔爾補充稱，盡管無法100%確定R1未使用OpenAI的示例進行訓練，但其他實驗室的復現(xiàn)嘗試表明，DeepSeek的推理模型訓練方法本身已足夠出色，無需借助這種手段。“我認為現(xiàn)有證據(jù)已相當明確：僅通過純強化學習，就能讓模型達到極高的性能水平。”他說道。

孫歡認為，對研究人員而言，R1模型仍具有很強的競爭力。在一項名為“ScienceAgentBench”的科學任務挑戰(zhàn)賽中（該賽事要求模型完成數(shù)據(jù)分析、數(shù)據(jù)可視化等任務），孫歡及其同事發(fā)現(xiàn)，盡管R1模型的準確率并非最高，但在能力與成本的平衡方面，卻是表現(xiàn)最佳的模型之一。

湯斯塔爾表示，目前已有其他研究人員嘗試將R1的研發(fā)方法應用于現(xiàn)有大型語言模型，以提升其推理類能力，同時還在探索將這些方法拓展到數(shù)學和編程之外的領域。他補充稱，從這個角度來說，R1模型“開啟了一場革命”。

本文作者伊麗莎白·吉布尼是《自然》雜志的資深物理記者。

說明：本號刊發(fā)來自各方的文章，是為了獲得更全面的信息，不代表本號支持文章中的觀點。由于微信公眾號每天只能推送一次，無法即時更新，本站目前在騰訊新聞發(fā)布最新的文章，每天24小時不間斷更新，請收藏以下地址（請完整復制），隨時刷新：

https://news.qq.com/omn/author/8QIf3nxc64AYuDfe4wc%3D

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.