<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      Karpathy再放大招:8000行代碼復現ChatGPT全棧,最低成本僅100美元,4小時跑完

      0
      分享至


      剛剛,Andrej Karpathy發布了一個新的項目:nanochat

      與之前只覆蓋預訓練的nanoGPT不同,nanochat是一個從頭開始、代碼極簡的全棧式ChatGPT克隆體訓練/推理流水線。它被集成在一個單一、依賴極少的代碼庫中

      Karpathy表示,用戶只需啟動一個云端GPU機器,運行一個腳本,最快4小時后,就能在類似ChatGPT的網頁界面中與自己訓練的LLM對話


      整個項目代碼量約8000行,覆蓋了以下完整流程:

      訓練分詞器:使用新的Rust實現

      預訓練:在FineWeb上預訓練一個Transformer LLM,并根據多項指標評估CORE分數

      中間訓練:在來自SmolTalk的用戶-助手對話、多項選擇題和工具使用數據上進行訓練

      SFT(監督微調):在世界知識選擇題(ARC-E/C, MMLU)、數學(GSM8K)和代碼(HumanEval)上對聊天模型進行微調和評估

      RL(強化學習):可選地使用“GRPO”在GSM8K上對模型進行強化學習

      高效推理:在帶有KV緩存的引擎中進行高效推理,支持簡單的prefill/decode和工具使用(在輕量級沙箱中調用Python解釋器),并可通過命令行或類似ChatGPT的WebUI進行交互

      生成報告卡:撰寫一份markdown格式的報告卡,對整個過程進行總結和游戲化呈現

      成本與性能

      Karpathy詳細介紹了不同投入下的模型表現:

      約100美元成本(在8xH100節點上訓練約4小時):可以訓練出一個能進行簡單對話、寫故事/詩歌、回答簡單問題的小ChatGPT克隆體

      約12小時訓練:CORE指標超過GPT-2

      更高投入,約1000美元成本(約41.6小時訓練):模型會變得更加連貫,能夠解決簡單的數學和代碼問題,并參加多項選擇題測試

      例如,一個深度為30、訓練24小時的模型(其FLOPs約等于GPT-3 Small 125M,是GPT-3的1/1000),在MMLU測試上得分40多分,ARC-Easy上70多分,GSM8K上20多分

      Karpathy的目標是將完整的強基線技術棧整合到一個有凝聚力、最小化、可讀、可破解、最大程度可fork的倉庫中。nanochat也將成為他仍在開發的LLM101n課程的頂點項目。他認為,這個項目有潛力發展成為一個研究工具或基準,就像之前的nanoGPT一樣

      他也坦言,項目遠未完成、調優或優化,可能還有很多容易優化的部分,但目前的整體框架已經足夠好,可以發布到GitHub上,讓社區共同改進。

      GitHub倉庫地址:

      https://github.com/karpathy/nanochat

      更詳細的技術介紹:

      https://github.com/karpathy/nanochat/discussions/1

      技術細節與問答

      在發布后,Karpathy也回答了網友們關心的一些問題。

      問:這個模型訓練的架構是什么?

      Karpathy:基本上類似Llama,但更簡單一些,也受到一些修改版nanoGPT的影響。我試圖為這個規模找到一個堅實的基線:

      密集Transformer

      旋轉嵌入(RoPE),無位置嵌入

      QK Norm

      Embedding和Unembedding權重不綁定

      Token embedding后接Norm

      MLP中使用relu^2激活函數

      RMSNorm中無可學習參數

      線性層中無偏置項

      多查詢注意力(MQA)

      Logit softcap

      優化器是Muon+AdamW,深受修改版nanoGPT的影響。我有一個TODO是嘗試很好地調整Adam的學習率(例如按模塊調整)以移除Muon,但我還沒有足夠努力地去嘗試。

      問:我可以用它來訓練我自己的數據嗎?比如我所有的Notion筆記、健康數據和其他LLM聊天記錄,來做一個理解我的個人聊天機器人?

      Karpathy:好問題。我認為這個倉庫不適合做這件事。你應該把這些微型模型更多地看作是非常年幼的孩子(比如幼兒園水平),它們不具備那些更大模型的原始智能。如果你用自己的數據對它進行微調/訓練,你可能會得到一些有趣的模仿,風格上感覺像你的寫作,但內容會很糟糕。

      要實現你想要的效果,你需要更復雜的流程:

      1.獲取你的原始數據。
      2.在其之上進行大量的合成數據生成和重寫(這很棘手,不簡單,屬于研究范疇)。
      3.在一個最先進的開源LLM上進行微調。
      4.你可能還需要混合大量的預訓練數據,以避免在微調過程中損失過多的原始智能。

      基本上,要讓這個工作得很好,仍然是研究領域的范疇,并不簡單。你最好的非研究選擇是,把你的所有寫作內容交給像NotebookLM這樣的工具,它會通過RAG(檢索增強生成)來處理你的數據。你的數據通過RAG進入上下文窗口,但不會影響模型權重。所以模型并不真正“了解你”,但這可能是你最容易接近的效果。

      問:這些代碼有多少是你手寫的?

      Karpathy:好問題,基本上完全是手寫的(配合Tab自動補全)。我試過幾次使用Claude/Codex的AI智能體,但它們的效果根本不夠好,最終沒什么幫助,可能是因為這個倉庫偏離了它們的數據分布太遠

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      警惕!這種“毒碗”已經上黑榜了,檢查一下,家里有的趕緊扔了吧

      警惕!這種“毒碗”已經上黑榜了,檢查一下,家里有的趕緊扔了吧

      削桐作琴
      2025-10-24 15:45:22
      往哈馬斯躲藏的地道里灌混凝土,內塔尼亞胡如此“殘暴”?

      往哈馬斯躲藏的地道里灌混凝土,內塔尼亞胡如此“殘暴”?

      山河路口
      2025-11-05 14:11:46
      上海警方通報:詹某(女,30歲)因垃圾堆放問題,與鄰居劉某(男,81歲)等3人發生肢體沖突,已立案

      上海警方通報:詹某(女,30歲)因垃圾堆放問題,與鄰居劉某(男,81歲)等3人發生肢體沖突,已立案

      極目新聞
      2025-11-05 14:43:38
      央視提醒:免疫力是最好的醫生,用8個方法激活它

      央視提醒:免疫力是最好的醫生,用8個方法激活它

      詩詞中國
      2025-11-03 21:30:33
      執教過多支德甲球隊,記者:拉巴迪亞曾進入國足選帥最終階段

      執教過多支德甲球隊,記者:拉巴迪亞曾進入國足選帥最終階段

      懂球帝
      2025-11-05 20:10:15
      世界大湖真稀缺啊!全球面積超過1萬km2的才17個,僅5國獨自擁有

      世界大湖真稀缺啊!全球面積超過1萬km2的才17個,僅5國獨自擁有

      全城探秘
      2025-11-04 16:33:03
      喝酒四巨頭:不到兩年全沒,有的去世當天喝4瓶白酒,最小的才26

      喝酒四巨頭:不到兩年全沒,有的去世當天喝4瓶白酒,最小的才26

      墨印齋
      2025-09-22 10:00:58
      baby葉珂雙雙哭暈!黃曉明跟女制片人貼臉擁抱,坐大腿親密照來了

      baby葉珂雙雙哭暈!黃曉明跟女制片人貼臉擁抱,坐大腿親密照來了

      八星人
      2025-11-05 15:32:27
      澤連斯基勇赴火線;預測一下他的未來

      澤連斯基勇赴火線;預測一下他的未來

      近距離
      2025-11-05 10:33:58
      于和偉曝余皚磊失眠嚴重,片場險心臟驟停,現被罵到抑郁不想拍戲

      于和偉曝余皚磊失眠嚴重,片場險心臟驟停,現被罵到抑郁不想拍戲

      仙味少女心
      2025-11-05 15:42:35
      回購+300億分紅!貴州茅臺打出“重磅組合拳”

      回購+300億分紅!貴州茅臺打出“重磅組合拳”

      財聯社
      2025-11-05 21:30:07
      這類型iPhone17Pro Max有遠程反鎖風險,買到就虧大了!

      這類型iPhone17Pro Max有遠程反鎖風險,買到就虧大了!

      果粉易查
      2025-11-03 20:50:03
      王思聰疑已換女友,顏值身材比懶懶更火辣!有人偷拍被王思聰拒絕

      王思聰疑已換女友,顏值身材比懶懶更火辣!有人偷拍被王思聰拒絕

      娛樂團長
      2025-11-04 11:06:56
      鹿哈官宣領證

      鹿哈官宣領證

      極目新聞
      2025-11-05 21:25:40
      孫宏斌“賭”贏了:融創中國95.5億美元境外債務實質性清零,他還牢牢掌握公司控制權

      孫宏斌“賭”贏了:融創中國95.5億美元境外債務實質性清零,他還牢牢掌握公司控制權

      每日經濟新聞
      2025-11-05 20:28:10
      歷經30年,世界上每臺電腦都標配的技術,終于要被拋棄了……

      歷經30年,世界上每臺電腦都標配的技術,終于要被拋棄了……

      碼農翻身
      2025-11-03 08:58:46
      4年1.1億!從雷霆廢太子到芝加哥登基,這筆1換1交易收獲4大贏家

      4年1.1億!從雷霆廢太子到芝加哥登基,這筆1換1交易收獲4大贏家

      毒舌NBA
      2025-11-05 12:48:51
      受不利氣象條件影響,北京空氣質量達到重度污染水平

      受不利氣象條件影響,北京空氣質量達到重度污染水平

      新京報
      2025-11-05 19:14:16
      中國不愿看到的一幕發生:俄羅斯警告塞爾維亞別亂來,武契奇急了

      中國不愿看到的一幕發生:俄羅斯警告塞爾維亞別亂來,武契奇急了

      霹靂炮
      2025-11-05 22:24:43
      完全就是負面影響!快船讓保羅繼續留在場上簡直就是給對手送分?

      完全就是負面影響!快船讓保羅繼續留在場上簡直就是給對手送分?

      稻谷與小麥
      2025-11-05 23:27:01
      2025-11-05 23:56:49
      AI寒武紀 incentive-icons
      AI寒武紀
      專注于人工智能,科技領域
      960文章數 370關注度
      往期回顧 全部

      科技要聞

      大轉彎!特朗普再提名馬斯克盟友任NASA局長

      頭條要聞

      丈夫突然病亡2天后妻子也離世留下一兒一女 妹妹發聲

      頭條要聞

      丈夫突然病亡2天后妻子也離世留下一兒一女 妹妹發聲

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發心臟病去世

      財經要聞

      事關加快建設金融強國 中央金融辦發聲

      汽車要聞

      智己LS9入局"9系"混戰 全尺寸SUV市場迎來新變量

      態度原創

      家居
      房產
      本地
      教育
      公開課

      家居要聞

      別樣府院 暢享詩意生活

      房產要聞

      最新!海南樓市10月熱銷榜單出爐!

      本地新聞

      這屆干飯人,已經把博物館吃成了食堂

      教育要聞

      最新:2026年南京中考體育考試內容及評分標準曝光!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产日韩一区二区四季| 精品中文人妻在线不卡| 国产亚洲人成网站在线观看 | 国产av国片精品一区二区| 日韩国产中文字幕精品| 少妇被多人c夜夜爽爽av| 亚洲国产日韩伦中文字幕| 国产精品色内内在线播放| 99在线视频免费观看| 精品熟女少妇av免费久久| 巨大黑人极品videos精品| 日韩精品亚洲精品第一页| 亚洲欧洲一区二区精品| 熟妇啊轻点灬大JI巴太粗| 国产av一区二区三区综合| 国产精品亚洲精品日韩已满十八小| 伊人春色激情综合激情网| 国产精品自拍实拍在线看| 小伙无套内射老熟女精品| 午夜免费无码福利视频麻豆| 国产精品多p对白交换绿帽| 国内偷自第一区二区三区| 四虎成人免费视频在线播放| 在线精品国产中文字幕| 石原莉奈日韩一区二区三区| 激情综合网激情综合| 奶头好大揉着好爽视频| 亚洲av永久无码精品漫画| 亚洲 欧美 综合 另类 中字| 久久自己只精产国品| 免费看成人毛片无码视频| 亚洲精品一二三伦理中文| 亚洲精品美女一区二区| 99久久精品国产综合一区| 国产偷窥熟女高潮精品视频| 亚洲日韩av无码一区二区三区人| 亚洲 另类 小说 国产精品无码| 欧美成本人视频免费播放| 欧美大胆老熟妇乱子伦视频| 99网友自拍视频在线| 国产高清在线精品一区不卡|