網易首頁 > 網易號 > 正文申請入駐

Karpathy再放大招：8000行代碼復現ChatGPT全棧，最低成本僅100美元，4小時跑完

2025-10-14 08:33:58　來源: AI寒武紀

江蘇舉報

分享至

剛剛，Andrej Karpathy發布了一個新的項目：nanochat。

與之前只覆蓋預訓練的nanoGPT不同，nanochat是一個從頭開始、代碼極簡的全棧式ChatGPT克隆體訓練/推理流水線。它被集成在一個單一、依賴極少的代碼庫中

Karpathy表示，用戶只需啟動一個云端GPU機器，運行一個腳本，最快4小時后，就能在類似ChatGPT的網頁界面中與自己訓練的LLM對話

整個項目代碼量約8000行，覆蓋了以下完整流程：

訓練分詞器：使用新的Rust實現

預訓練：在FineWeb上預訓練一個Transformer LLM，并根據多項指標評估CORE分數

中間訓練：在來自SmolTalk的用戶-助手對話、多項選擇題和工具使用數據上進行訓練

SFT（監督微調）：在世界知識選擇題（ARC-E/C, MMLU）、數學（GSM8K）和代碼（HumanEval）上對聊天模型進行微調和評估

RL（強化學習）：可選地使用“GRPO”在GSM8K上對模型進行強化學習

高效推理：在帶有KV緩存的引擎中進行高效推理，支持簡單的prefill/decode和工具使用（在輕量級沙箱中調用Python解釋器），并可通過命令行或類似ChatGPT的WebUI進行交互

生成報告卡：撰寫一份markdown格式的報告卡，對整個過程進行總結和游戲化呈現

成本與性能

Karpathy詳細介紹了不同投入下的模型表現：

約100美元成本（在8xH100節點上訓練約4小時）：可以訓練出一個能進行簡單對話、寫故事/詩歌、回答簡單問題的小ChatGPT克隆體

約12小時訓練：CORE指標超過GPT-2

更高投入，約1000美元成本（約41.6小時訓練）：模型會變得更加連貫，能夠解決簡單的數學和代碼問題，并參加多項選擇題測試

例如，一個深度為30、訓練24小時的模型（其FLOPs約等于GPT-3 Small 125M，是GPT-3的1/1000），在MMLU測試上得分40多分，ARC-Easy上70多分，GSM8K上20多分

Karpathy的目標是將完整的強基線技術棧整合到一個有凝聚力、最小化、可讀、可破解、最大程度可fork的倉庫中。nanochat也將成為他仍在開發的LLM101n課程的頂點項目。他認為，這個項目有潛力發展成為一個研究工具或基準，就像之前的nanoGPT一樣

他也坦言，項目遠未完成、調優或優化，可能還有很多容易優化的部分，但目前的整體框架已經足夠好，可以發布到GitHub上，讓社區共同改進。

GitHub倉庫地址：

https://github.com/karpathy/nanochat

更詳細的技術介紹：

https://github.com/karpathy/nanochat/discussions/1

技術細節與問答

在發布后，Karpathy也回答了網友們關心的一些問題。

問：這個模型訓練的架構是什么？

Karpathy：基本上類似Llama，但更簡單一些，也受到一些修改版nanoGPT的影響。我試圖為這個規模找到一個堅實的基線：

密集Transformer

旋轉嵌入（RoPE），無位置嵌入

QK Norm

Embedding和Unembedding權重不綁定

Token embedding后接Norm

MLP中使用relu^2激活函數

RMSNorm中無可學習參數

線性層中無偏置項

多查詢注意力（MQA）

Logit softcap

優化器是Muon+AdamW，深受修改版nanoGPT的影響。我有一個TODO是嘗試很好地調整Adam的學習率（例如按模塊調整）以移除Muon，但我還沒有足夠努力地去嘗試。

問：我可以用它來訓練我自己的數據嗎？比如我所有的Notion筆記、健康數據和其他LLM聊天記錄，來做一個理解我的個人聊天機器人？

Karpathy：好問題。我認為這個倉庫不適合做這件事。你應該把這些微型模型更多地看作是非常年幼的孩子（比如幼兒園水平），它們不具備那些更大模型的原始智能。如果你用自己的數據對它進行微調/訓練，你可能會得到一些有趣的模仿，風格上感覺像你的寫作，但內容會很糟糕。

要實現你想要的效果，你需要更復雜的流程：

1.獲取你的原始數據。
2.在其之上進行大量的合成數據生成和重寫（這很棘手，不簡單，屬于研究范疇）。
3.在一個最先進的開源LLM上進行微調。
4.你可能還需要混合大量的預訓練數據，以避免在微調過程中損失過多的原始智能。

基本上，要讓這個工作得很好，仍然是研究領域的范疇，并不簡單。你最好的非研究選擇是，把你的所有寫作內容交給像NotebookLM這樣的工具，它會通過RAG（檢索增強生成）來處理你的數據。你的數據通過RAG進入上下文窗口，但不會影響模型權重。所以模型并不真正“了解你”，但這可能是你最容易接近的效果。

問：這些代碼有多少是你手寫的？

Karpathy：好問題，基本上完全是手寫的（配合Tab自動補全）。我試過幾次使用Claude/Codex的AI智能體，但它們的效果根本不夠好，最終沒什么幫助，可能是因為這個倉庫偏離了它們的數據分布太遠

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

Qwen3-Max思考版上線，集成代碼解釋器攻堅復雜數學

DeepTech深科技 2025-11-04 17:45:57
2 跟貼 2
LLaVA-OneVision-1.5開源，8B模型預訓練只需4天、1.6萬美元

機器之心Pro 2025-10-13 18:37:02
0 跟貼 0

數學界無視「30年漏洞」，GPT-5一眼看穿！陶哲軒：AI科研革命開始了

新智元 2025-11-05 17:08:45
2 跟貼 2

抖音SAIL團隊聯合港中文MMLab推出SAIL-Embedding

機器之心Pro 2025-11-04 13:34:28
0 跟貼 0
體驗了一周ChatGPT瀏覽器，我還是把Chrome裝了回來

愛范兒 2025-11-03 12:16:35
1 跟貼 1

上海AI Lab混合擴散語言模型SDAR：突破6600 tgs開源擴散語言模型

機器之心Pro 2025-11-03 18:33:12
0 跟貼 0

我MiniMax，用實習生處理數據，照樣屠榜開源大模型

量子位 2025-11-04 13:14:18
4 跟貼 4
斯坦福7B智能體全面超越GPT-4o，推理流登頂HF

新智元 2025-11-03 17:19:44
2 跟貼 2

LLM把簡單任務復雜化，Karpathy無語：有些任務無需那么多思考

機器之心Pro 2025-08-12 11:16:52
0 跟貼 0
字節Seed團隊發布循環語言模型Ouro，在預訓練階段直接「思考」

機器之心Pro 2025-11-04 11:58:36
0 跟貼 0
27萬小時的真實數據，終于驗證了機器人領域的Scaling Law？

DeepTech深科技 2025-11-05 21:55:30
0 跟貼 0
說話像ChatGPT，統統拉黑！「AI腔」正毀掉社交，奧特曼都受不了

新智元 2025-11-03 12:35:06
19 跟貼 19
程序員入職近三個月一個成果沒有，種種表現卻像是帶薪干私活？

程序員古耕 2025-11-04 22:59:48
3 跟貼 3
AI跌價900倍，連一瓶礦泉水都比它貴！

新智元 2025-11-05 19:51:51
0 跟貼 0
用完這張無限可能的AI畫布，第一次感覺人類導演要失業了！

新智元 2025-11-04 10:12:24
3 跟貼 3
PS5系統代碼泄露索尼或推PS/PC跨平臺購買功能

3DM游戲 2025-11-05 11:18:05
21 跟貼 21
Claude Code 被任意代碼執行攻擊的視頻演示

機器之心Pro 2025-09-23 10:44:09
0 跟貼 0
男子通過模型講解自建房結構，“圈梁構造柱樓板馬牙槎”，網友：樓板才是磚混結構的靈魂

鶴壁焦點 2025-11-03 16:34:57
363 跟貼 363
1斤豆芽賣28.8元？網友直呼“吃不起”，知名餐飲品牌回應

都市快報橙柿互動 2025-11-02 16:20:16
8611 跟貼 8611
微信AI團隊，悄悄干了件大事，算力消耗暴降44%！

智東西 2025-11-05 22:10:40
0 跟貼 0
用車計算器 |沃爾沃S60的用車成本要多少？

AL 頻道 2025-11-05 10:23:00
1 跟貼 1
富家花重金，買下泰森11的拳頭模型，有錢就是豪橫

歡樂夢工廠 2025-11-04 11:55:45
1 跟貼 1
擴散不死，BERT永生！Karpathy凌晨反思：自回歸時代該終結了?

新智元 2025-11-05 10:14:57
0 跟貼 0
烏克蘭公布“罕見”作戰畫面！外媒：烏特種部隊乘“黑鷹”直升機突襲波克羅夫斯克

環球網資訊 2025-11-05 16:09:59
3053 跟貼 3053
陶哲軒，用AI爆改科研范式

新智元 2025-11-05 17:09:23
0 跟貼 0
ChatGPT智能體來了：自己操作電腦干活，接管你的電腦，自動執行各種任務

量子位 2025-07-18 18:08:35
0 跟貼 0
瞬間暴漲3倍！上海有人立馬出手：好怕搶不到

極目新聞 2025-11-05 15:06:20
320 跟貼 320
剛剛，華為AI推理大招開源，時延降90%，吞吐提22倍，上下文10倍級擴展

智東西 2025-11-05 17:53:14
0 跟貼 0
缺人！這個新職業在湖北爆火

極目新聞 2025-11-03 20:13:29
27 跟貼 27
對話式AI，等待下一次「萬億時刻」

36氪 2025-11-05 17:45:32
0 跟貼 0
花生加一寶血管通暢到老！成本才五塊錢，腦梗風險降一半！

遠方的青木 2025-11-03 10:26:16
0 跟貼 0
讓AI生成視頻「又長又快」：Rolling Forcing實現分鐘級實時生成

機器之心Pro 2025-11-05 13:42:31
0 跟貼 0
AI實盤投資哪家強？專訪Nof1人工智能負責人：表現最佳的都是開源模型

每日經濟新聞 2025-11-05 23:20:06
0 跟貼 0
推理型模型是測試利用者：對多項選擇題的重新思考

CreateAMind 2025-11-02 20:27:42
0 跟貼 0
血流變血粘度高血管會堵塞？怎么辦？沒必要查！這3個指標才重要

心血管王醫生 2025-11-04 17:08:26
7 跟貼 7
成都一處兇宅以起拍價26.6萬元拍賣，市場價約160萬元，已有70人報名

極目新聞 2025-11-05 12:35:31
1008 跟貼 1008
美財長稱中國是"不可靠的伙伴" 外交部回應

澎湃新聞 2025-11-05 15:18:30
675 跟貼 675
三亞海灘“長滿”了俄羅斯人！網友調侃：我在這里反而成了“老外”

封面新聞 2025-11-02 12:57:02
148 跟貼 148
省級老同志赴鄭州航空港區參觀調研

政知新媒體 2025-11-05 14:51:57
131 跟貼 131
實測！2025年山西旅行社前十榜單公布｜真實數據說話

珈程旅行社 2025-11-04 11:03:55
0 跟貼 0

手機 / 數碼

房產 / 家居

Karpathy再放大招：8000行代碼復現ChatGPT全棧，最低成本僅100美元，4小時跑完

大轉彎!特朗普再提名馬斯克盟友任NASA局長

丈夫突然病亡2天后妻子也離世留下一兒一女 妹妹發聲

丈夫突然病亡2天后妻子也離世留下一兒一女 妹妹發聲

贏下皇馬，會是利物浦的轉折點嗎？

港星林尚武突發心臟病去世

事關加快建設金融強國 中央金融辦發聲

智己LS9入局"9系"混戰 全尺寸SUV市場迎來新變量

態度原創

別樣府院 暢享詩意生活

最新！海南樓市10月熱銷榜單出爐！

這屆干飯人，已經把博物館吃成了食堂

最新：2026年南京中考體育考試內容及評分標準曝光！

丈夫突然病亡2天后妻子也離世留下一兒一女妹妹發聲

丈夫突然病亡2天后妻子也離世留下一兒一女妹妹發聲

事關加快建設金融強國中央金融辦發聲

智己LS9入局"9系"混戰全尺寸SUV市場迎來新變量

別樣府院暢享詩意生活