Secrets of DeepSeek AI model revealed in landmark paper
第一份同行評審研究顯示,一家中國初創(chuàng)公司如何以 30 萬美元的價格打造出震撼市場的大語言模型。
![]()
DeepSeek表示,其R1模型并非通過復制其他大型語言模型(LLM)生成的示例來學習。圖片來源:David Talukdar/ZUMA via Alamy
中國公司DeepSeek的研究人員表示,其功能強大的人工智能模型R1的成功——該模型在1月份發(fā)布時曾導致美國股市暴跌——并非依賴于使用競爭對手的模型輸出結果進行訓練。這一說法出自今日發(fā)表在《自然》雜志上的R1模型同行評審版本及附帶發(fā)布的文件中。
R1模型旨在擅長數(shù)學、編程等“推理”類任務,作為美國科技公司開發(fā)工具的競品,其成本更低。作為一款“開源權重”模型,任何人都可下載使用;截至目前,它已是人工智能社區(qū)平臺Hugging Face上最受歡迎的此類模型,下載量已達1090萬次。
該論文更新了1月份發(fā)布的預印本,預印本中介紹了DeepSeek如何對標準大型語言模型進行優(yōu)化,以應對推理任務。論文的補充材料首次披露了R1模型的訓練成本:僅相當于29.4萬美元。此外,總部位于杭州的DeepSeek公司為構建R1所基于的基礎大型語言模型,還投入了約600萬美元;但即便總成本相加,仍遠低于業(yè)界認為的競品模型數(shù)千萬美元的研發(fā)費用。DeepSeek表示,R1模型的訓練主要使用英偉達H800芯片,而該型號芯片在2023年因美國出口管制政策被禁止售往中國。
嚴格的評審流程
R1被認為是首個經(jīng)歷同行評審流程的主流大型語言模型。“這是一個非常值得歡迎的先例,”Hugging Face的機器學習工程師劉易斯·湯斯塔爾(Lewis Tunstall)表示,他參與了該《自然》論文的評審工作,“如果我們不建立公開分享這一過程大部分內容的規(guī)范,就很難評估這些系統(tǒng)是否存在風險。”
為回應同行評審意見,DeepSeek團隊在描述中減少了擬人化表述,并補充闡明了技術細節(jié),包括模型訓練所用的數(shù)據(jù)類型及其安全性。“經(jīng)過嚴格的同行評審流程,無疑有助于驗證該模型的有效性和實用性,”俄亥俄州立大學(位于哥倫布市)的人工智能研究員孫歡(Huan Sun,音譯)表示,“其他公司也應采取同樣的做法。”
DeepSeek的主要創(chuàng)新在于,采用了一種自動化的試錯方法(即“純強化學習”)來打造R1模型。該過程通過獎勵模型得出正確答案來優(yōu)化其性能,而非教導它遵循人類篩選的推理示例。該公司表示,正是通過這種方式,其模型自主習得了解決問題的推理類策略,例如無需遵循人類設定的方法就能驗證自身運算過程。為提高效率,該模型還會通過估算為自身的嘗試打分,而非使用單獨的算法執(zhí)行此項任務——這種技術被稱為“群體相對策略優(yōu)化”。
孫歡指出,該模型在人工智能研究人員中“影響力頗大”。“截至2025年,幾乎所有在大型語言模型中應用強化學習的研究工作,或多或少都可能受到了R1模型的啟發(fā)。”
訓練技術爭議
1月份有媒體報道稱,總部位于美國加利福尼亞州舊金山、開發(fā)出ChatGPT及“o系列”推理模型的OpenAI公司研究人員認為,DeepSeek在訓練R1時使用了OpenAI模型的輸出結果——這種方法理論上可在減少資源投入的同時,快速提升模型性能。
DeepSeek并未在論文中公開其訓練數(shù)據(jù)。但在與評審專家的溝通中,該公司研究人員表示,R1模型并非通過復制OpenAI模型生成的推理示例來學習。不過他們也承認,與大多數(shù)其他大型語言模型一樣,R1的基礎模型是通過網(wǎng)絡數(shù)據(jù)訓練的,因此不可避免會吸收互聯(lián)網(wǎng)上已存在的各類人工智能生成內容。
孫歡表示,這一反駁“與我們在任何學術出版物中能看到的論證一樣有說服力”。湯斯塔爾補充稱,盡管無法100%確定R1未使用OpenAI的示例進行訓練,但其他實驗室的復現(xiàn)嘗試表明,DeepSeek的推理模型訓練方法本身已足夠出色,無需借助這種手段。“我認為現(xiàn)有證據(jù)已相當明確:僅通過純強化學習,就能讓模型達到極高的性能水平。”他說道。
孫歡認為,對研究人員而言,R1模型仍具有很強的競爭力。在一項名為“ScienceAgentBench”的科學任務挑戰(zhàn)賽中(該賽事要求模型完成數(shù)據(jù)分析、數(shù)據(jù)可視化等任務),孫歡及其同事發(fā)現(xiàn),盡管R1模型的準確率并非最高,但在能力與成本的平衡方面,卻是表現(xiàn)最佳的模型之一。
湯斯塔爾表示,目前已有其他研究人員嘗試將R1的研發(fā)方法應用于現(xiàn)有大型語言模型,以提升其推理類能力,同時還在探索將這些方法拓展到數(shù)學和編程之外的領域。他補充稱,從這個角度來說,R1模型“開啟了一場革命”。
本文作者伊麗莎白·吉布尼是《自然》雜志的資深物理記者。
說明:本號刊發(fā)來自各方的文章,是為了獲得更全面的信息,不代表本號支持文章中的觀點。由于微信公眾號每天只能推送一次,無法即時更新,本站目前在騰訊新聞發(fā)布最新的文章,每天24小時不間斷更新,請收藏以下地址(請完整復制),隨時刷新:
https://news.qq.com/omn/author/8QIf3nxc64AYuDfe4wc%3D
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.