DeepSeek 又一次刷新了 AI 圈的認(rèn)知,中國(guó) AI 迎來(lái)了真正的 “Nature 時(shí)刻”。
最近,R1 模型的論文登上了全球頂刊《自然》,立刻引發(fā)了廣泛關(guān)注。
![]()
但更炸裂的是:訓(xùn)練成本竟然只有 29.4 萬(wàn)美元!
圈內(nèi)同行聽(tīng)到這個(gè)數(shù)字,全都開(kāi)始嘀咕:等等,我是不是算錯(cuò)了?我家的戰(zhàn)略是不是得重做?
![]()
事情要從今年年初說(shuō)起,DeepSeek-R1 一亮相就靠高性價(jià)比、高性能和開(kāi)源策略吸引了全球目光。
當(dāng)時(shí)大家心里都明白,這種成績(jī)成本肯定不低,但具體數(shù)字誰(shuí)也沒(méi)看到。
直到最近,DeepSeek 團(tuán)隊(duì)在《自然》雜志的論文里首次把訓(xùn)練細(xì)節(jié)和成本公開(kāi)了:512 塊 H800 芯片,僅用了 29.4 萬(wàn)美元訓(xùn)練 R1 推理能力,構(gòu)建基礎(chǔ)大模型也就 600 萬(wàn)美元。
這個(gè)透明操作直接讓路透社、CNN、彭博社等美媒一片驚呼,這真的是讓人驚掉下巴的數(shù)字。
![]()
CNBC 甚至評(píng)論,DeepSeek用這筆錢(qián)就完成了原本只有超級(jí)大廠才敢碰的訓(xùn)練量,打破了“必須擁有最頂尖 GPU 才能玩 AI”的假設(shè)。
![]()
講真,這個(gè) 29.4 萬(wàn)美元的訓(xùn)練成本真的刷新認(rèn)知,也讓美國(guó)同行開(kāi)始認(rèn)真掂量自家賬本。
想想 OpenAI CEO 奧爾特曼 2023 年透露的基礎(chǔ)模型訓(xùn)練成本“遠(yuǎn)超 1 億美元”,再看看 DeepSeek 用 H800 芯片跑出來(lái)的成績(jī),差距太扎眼了。
![]()
DeepSeek 公開(kāi)的論文不僅把成本擺出來(lái),還順帶把模型訓(xùn)練細(xì)節(jié)、強(qiáng)化學(xué)習(xí)策略、數(shù)據(jù)來(lái)源全都透明化了。
此前,美國(guó)一些官員質(zhì)疑 DeepSeek 僅靠“閹割版”的英偉達(dá) H800 芯片不可能訓(xùn)練出高性能模型,甚至還污蔑其違規(guī)獲取大量 H100 芯片進(jìn)行訓(xùn)練。
對(duì)此,DeepSeek 在《自然》雜志的補(bǔ)充文件中首次明確回應(yīng):R1 的訓(xùn)練全程僅使用了合法采購(gòu)的 H800,耗時(shí)共 80 小時(shí)。
而 R1 能有今天的推理能力,也離不開(kāi)它的前身 R1-Zero 的打磨。R1-Zero 完全靠純強(qiáng)化學(xué)習(xí)自我進(jìn)化,訓(xùn)練里唯一的規(guī)則就是:答對(duì)加分,答錯(cuò)扣分,不教套路,也不規(guī)定思考步驟。
![]()
在 AIME 2024 數(shù)學(xué)測(cè)試中,它的準(zhǔn)確率從最初的 15.6% 飆升至 77.9%,在啟用自洽解碼后更是突破至 86.7%,超越了不少人類選手。
訓(xùn)練過(guò)程中,團(tuán)隊(duì)還發(fā)現(xiàn)它會(huì)主動(dòng)延長(zhǎng)思考鏈條,有時(shí)甚至輸出上萬(wàn)個(gè) token,并在推理中自發(fā)插入一句“等一下,我需要驗(yàn)證”,展現(xiàn)出完全自主的解題優(yōu)化能力。
這一幕堪稱 AI 的“頓悟時(shí)刻”,而令人震撼的是,這一切都發(fā)生在沒(méi)有任何人工指導(dǎo)的情況下。
![]()
當(dāng)然,R1-Zero 本身不適合直接對(duì)外使用,語(yǔ)言混用、可讀性差是硬傷。于是團(tuán)隊(duì)設(shè)計(jì)了多階段精煉:先用高質(zhì)量冷啟動(dòng)數(shù)據(jù)修復(fù)語(yǔ)言問(wèn)題,再?gòu)?qiáng)化學(xué)習(xí)提升推理能力,然后大規(guī)模監(jiān)督微調(diào)擴(kuò)展知識(shí)面,最后一輪強(qiáng)化學(xué)習(xí)對(duì)齊人類偏好。
![]()
經(jīng)過(guò)多輪打磨,R1 不僅保留深度推理能力,還能用流暢自然的語(yǔ)言與用戶互動(dòng)。最終,R1 在數(shù)學(xué)、編程等高難度任務(wù)上保持頂尖水平,在指令遵循和用戶偏好基準(zhǔn)上提升 17%–25%。
從 R1-Zero 到 R1 的進(jìn)化,也讓整個(gè) AI 社區(qū)看到了一種新的可能性:高效低成本訓(xùn)練、強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)自我探索、系統(tǒng)性策略涌現(xiàn),讓大模型在保持性能的同時(shí),也能顯著降低資源消耗和成本壓力。
上線后,R1 開(kāi)源到 Hugging Face,下載量破 1090 萬(wàn)次,成為全球首個(gè)經(jīng)過(guò)同行評(píng)審的主流大語(yǔ)言模型。Nature 也給出肯定,強(qiáng)調(diào)同行評(píng)審的價(jià)值,讓大模型從公司的黑箱變成可以被科學(xué)驗(yàn)證的系統(tǒng)。
![]()
這意味著,AI 競(jìng)爭(zhēng)不再只是比誰(shuí)燒得起更多 GPU。DeepSeek 用極低成本證明,高效策略、聰明訓(xùn)練流程和數(shù)據(jù)最大化利用,也能實(shí)現(xiàn)頂尖性能。
![]()
更重要的是,這種透明化做法給整個(gè)行業(yè)樹(shù)立了示范:訓(xùn)練細(xì)節(jié)、強(qiáng)化學(xué)習(xí)算法和數(shù)據(jù)來(lái)源全都公開(kāi),任何人都能復(fù)現(xiàn),或者在此基礎(chǔ)上做二次研究。
從技術(shù)角度看,R1 的成功驗(yàn)證了“自我探索 + 強(qiáng)化學(xué)習(xí) + 多輪精煉”的方法論。在完全沒(méi)有人工指導(dǎo)的情況下,模型會(huì)自主選擇更長(zhǎng)的思考鏈、嘗試多種解法并自我檢驗(yàn)。
這種能力,就是涌現(xiàn)的高級(jí)策略:AI 不再只是按套路算題,而是真正學(xué)會(huì)了“怎么去思考”。
而且,這套方法不僅對(duì)數(shù)學(xué)有效。經(jīng)過(guò)多輪微調(diào),R1 的能力已經(jīng)擴(kuò)展到語(yǔ)言理解、常識(shí)推理、跨學(xué)科問(wèn)題解決等多個(gè)領(lǐng)域。
![]()
可以看到,DeepSeek 這次操作不僅刷新了成本認(rèn)知,也向整個(gè) AI 社區(qū)發(fā)出了信號(hào):中國(guó)團(tuán)隊(duì)完全能在高性能與低成本之間找到平衡,用更智能的訓(xùn)練方法解決大模型長(zhǎng)期的資源瓶頸。
DeepSeek 登上 Nature 封面只是開(kāi)始,整個(gè)行業(yè)都在緊盯這波操作,很可能徹底改寫(xiě) AI 研究、訓(xùn)練和應(yīng)用的玩法。
參考資料:
新智元、科普中國(guó)
編輯:不吃麥芽糖
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.