<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      兄弟倆用開源對抗AI訓練壟斷,還順手幫模型們修了一堆Bug

      0
      分享至

      2023 年的秋天,當全世界都在為 ChatGPT 和大語言模型瘋狂的時候,遠在澳大利亞悉尼的一對兄弟卻在為一個看似簡單的問題發愁:為什么微調一個開源模型要花這么長時間,還要用那么昂貴的 GPU?

      Daniel Han(全名是 Daniel Han-Chen)盯著屏幕上緩慢跳動的訓練進度條,心里盤算著:一臺免費的 Google Colab T4 GPU 上,訓練一個 13B 參數的模型根本跑不起來,內存直接爆掉。而那些商用的解決方案,動輒需要價值數萬美元的高端顯卡。

      Daniel 畢業于新南威爾士大學,此前曾在 NVIDIA 工作過一年半,專門負責算法優化。他認為這個問題并非無解。和弟弟 Michael Han-Chen 商量后,兩人決定:既然大公司不愿意解決這個問題,那就自己動手。


      圖丨小時候的 Daniel Han 和 Michael Han(來源:GitHub)

      這個決定催生了一個改變 AI 訓練規則的開源項目——Unsloth。

      從 NVIDIA 出走的優化狂人

      Daniel Han 的職業生涯可以用一個詞概括:優化。

      在 NVIDIA 期間,他讓 TSNE(一種數據可視化算法)的運行速度提升了 2000 倍,優化了隨機奇異值分解(Randomized SVD)等多個機器學習算法。他還維護著另一個開源項目 Hyperlearn,這個機器學習優化包被 NASA 和微軟的工程師使用。


      圖丨Daniel Han(右)和 Michael Han(左)(來源:LinkedIn)

      那段經歷讓他看清了一個事實:當前 AI 軟件棧的性能瓶頸,很大程度上是軟件問題而非硬件問題。PyTorch、TensorFlow 這些框架為了通用性做了大量妥協——為了支持各種硬件和模型架構,實現必然不是最優的。如果針對特定場景深度定制,性能提升空間巨大。

      但真正讓他決心投身開源硬件優化的,是一個更宏大的愿景?!癘penAI 和 Anthropic 這些大公司想通過更大的模型、更多的數據、更強的算力來實現 AGI,”Daniel 說,“而我們相信,通過更高效的模型、更快的訓練方法、更少的資源消耗,也能讓 AGI 惠及每一個人。”

      2023 年 10 月,他們參加了歐洲的 LLM 效率挑戰賽(LLM Efficiency Challenge)。比賽規則是在 24 小時內用一塊 GPU 訓練一個語言模型,看誰能獲得最高準確率。但兄弟倆換了個思路——與其拼準確率,不如讓訓練本身變得更快。

      “我用的是 Colab 和 Kaggle 的免費 GPU,T4 實在太慢了,有時候連 13B 的模型都裝不下,”Daniel 回憶道。通過一系列底層優化,他們成功讓訓練速度提升了 2 倍,內存使用減少了 50%,而且完全沒有精度損失。這個副產品式的成果,最終在 2023 年 12 月以開源項目的形式被發布,取名 Unsloth——意為“unslothing”,讓 AI 訓練不再緩慢如樹懶。


      (來源:Unsloth)

      沒有營銷預算,沒有豪華團隊。他們只是把代碼放在 GitHub 上,在 Reddit 的 AI 開發者社區發了一條帖子。第一周就有上千名開發者試用。最常見的質疑是:“速度快兩倍還不損失精度?怎么可能?”

      Daniel 的回應非常簡單:把所有技術細節公開。他在博客上詳細解釋手動推導反向傳播的數學過程,展示 Triton 內核的源代碼,甚至把性能測試的完整日志都放出來。懷疑者開始認真閱讀代碼,復現測試,發現結果確實如此。

      為開源 LLMs 修 Bug

      真正讓 Unsloth 聲名大噪的,是他們 2024 年 3 月對 Google Gemma 模型的“手術”。

      Gemma 發布后,社區很快發現問題:訓練時表現異常,損失值不收斂,微調效果差得出奇。論壇上出現各種猜測,但沒人能給出確定答案。

      Daniel 在集成 Gemma 到 Unsloth 時,發現的不是一個 bug,而是一串 bug。分詞器有問題,位置編碼計算不對,連基礎的數值精度處理都有紕漏。他花三天時間,把 8 個 bug 的根源、觸發條件和修復方案全部整理成文檔,配有數學推導、性能對比和測試結果。

      然后全部公開發布。

      博客發布幾小時后,社區上就有許多轉載。Andrej Karpathy 轉發評論:“這就是深入理解深度學習棧每一層的價值。”Google 團隊隨后確認了這些 bug,采納修復方案,并在更新日志里致謝。


      圖丨相關推文(來源:X)

      類似的事情在接下來一年反復上演。Meta 的 Llama 3、微軟的 Phi-4、阿里 Qwen 2.5,每次重磅模型發布,Unsloth 都會迅速跟進,找出問題,公開方案。2024 年 10 月,他們甚至修復了一個影響所有訓練框架的通用 bug——梯度累積的實現錯誤,被合并到 Hugging Face Transformers 主分支,惠及了全球數百萬 AI 開發者。

      “當我們在移植新模型時,如果發現自己的實現比官方版本效果更好,我們就知道肯定哪里出問題了,”Daniel 解釋了他們的發現過程。這種對技術細節的執著和對開源社區的責任感,讓 Unsloth 贏得了業界的尊重。Hugging Face 很快與他們建立了合作關系,在官方文檔中推薦使用 Unsloth 來解決速度和內存問題。AWS、Intel 等大公司也主動接觸,希望將 Unsloth 移植到自己的硬件平臺上。

      重寫自動求導引擎

      Unsloth 的核心創新在于對深度學習訓練流程的徹底重構。大多數工程師會滿足于使用 PyTorch 提供的自動求導功能,但 Daniel 認為這還不夠。

      “PyTorch 的 autograd 對大多數任務來說已經足夠高效,但如果你想要極致性能,就必須自己推導矩陣微分,”Daniel 選擇為所有計算密集型操作手工推導矩陣微分步驟。

      舉例來說,在注意力機制與低秩適應(LoRA, Low-Rank Adaptation)結合時,標準方法需要計算 6 個矩陣的導數。如果按照常規方式,計算 output = X × W + X × (A × B) 需要三次矩陣乘法和兩個中間變量存儲。但 Daniel 通過代數變換優化為 output = X × (W + A × B)——先計算小矩陣 W + A × B,最后只與大矩陣 X 相乘一次。

      這種看似簡單的代數技巧,單獨貢獻了約 4-6% 的速度提升。更關鍵的是,它顯著減少了 GPU 顯存占用。因為 LoRA 權重矩陣通常只有 8 到 128 的維度,而 Llama 系列模型的權重維度是 4096 或更大,正確放置括號能將浮點運算次數減少數個數量級。

      兄弟倆還用 OpenAI 的 Triton 語言重寫了所有關鍵計算內核,包括 RoPE(Rotary Position Embedding)位置編碼、RMS 層歸一化(Root Mean Square Layer Normalization)、交叉熵損失函數等。這些手寫的內核不僅更快,代碼也更清晰易讀。

      此外,還有他們獨創的“動態量化”技術。標準的 4-bit 量化會壓縮所有層,但 Unsloth 能識別出對模型精度影響大的敏感層,在這些層保持高精度,從而在大幅節省顯存的同時保持模型性能。

      但在所有優化中,內存減少才是 Unsloth 最大的優勢。Daniel 反復強調這一點:“我們百分之七十到八十的內存減少才是最重要的。不是速度,而是內存?!彪S著模型規模不斷增大,內存瓶頸比計算速度更容易成為制約因素。一個 16GB 顯存的 T4 GPU,在標準訓練流程下連 130 億參數的模型都無法完整加載,但使用 Unsloth 后,48GB 顯存的 GPU 就能訓練 700 億參數的 Llama 3 模型。


      圖丨在 SlimOrca 數據集的測試結果(來源:Unsloth)

      測試結果顯示,在單塊 Tesla T4 GPU 上,使用 Hugging Face 標準實現訓練 Alpaca 數據集需要 23 小時 15 分鐘,而 Unsloth 的 Max 版本只需要 2 小時 34 分鐘,相當于 8.8 倍的速度提升。在 SlimOrca 數據集上,391 小時被壓縮到 51 小時。內存使用方面,峰值從 16.7GB 降到 6.9GB,減少了 59%。

      從邊緣走向中心

      這一波 AI 浪潮中,模型的參數量不段擴大,從最初幾十億到如今的上萬億的參數量,規模膨脹了上百倍,給個人開發者和小團隊帶來了巨大壓力——要么付費使用閉源 API,要么購買昂貴的硬件。而 Unsloth 讓第三條路成為可能。一臺消費級顯卡,比如 RTX 4090,配合 Unsloth 就能完成以前需要數據中心級別硬件才能做的微調任務。

      截至今天,Unsloth 在 GitHub 上的星標已超過 4 萬(目前約 47,500),每月模型下載量超過 200 萬次。來自中國、智利、尼加拉瓜、危地馬拉、印度、意大利、土耳其等國的開發者,已經基于 Unsloth 框架微調出超過 110 個模型應用。

      這種普及帶來了意想不到的效果。除了能讓各行各業都能更輕松地訓練出屬于自己的專有模型,Daniel 還提到了一個最讓他驕傲的用例:“語言翻譯。大多數大語言模型只在特定語言集上預訓練,很多只支持英語。但我們看到很多來自母語非英語國家的開發者,用 Unsloth 把英語模型轉換成他們的本地語言?!?/p>

      從日語到印尼語,從韓語到各種印度地方語言,Unsloth 讓模型本地化變得觸手可及。在他們的 GitHub 倉庫中,有一個專門的韓語翻譯示例筆記,詳細展示了如何將英語模型轉換為韓語模型。這個看似簡單的功能,卻讓全球數十億非英語使用者第一次真正擁有了自己語言的 AI 工具。

      開源的力量

      回顧 Unsloth 的發展歷程,開源始終是核心。為了維持項目的可持續性,他們提供了 Pro 和 Max 兩個付費版本,前者支持多 GPU 訓練和更多優化,后者還包括從零開始訓練大模型的內核,并能將代碼移植到 AMD 和英特爾 GPU 上。但核心的開源版本始終保持免費?!伴_源最大的價值是信任,”Daniel 說,“AI 領域最大的問題就是信任。如果你做開源,每個人都能檢查你的代碼,貢獻改進,發現并修復 bug。”

      兄弟倆的 Discord 社區異?;钴S,GitHub Issues 中充滿了用戶的改進建議和 bug 報告?!拔覀兊?Discord 服務器上,每個人都很友好,”Michael 說,“大家喜歡互相幫助,討論自己熱愛的東西。開源社區就是這樣一個讓志同道合的人聚在一起的地方?!?/p>

      這種開放協作的氛圍也影響了他們的產品規劃?!爱斔腥硕荚谝竽硞€功能時,我們就會去實現它,”Daniel 表示,“如果是閉源產品,很難決定先做哪個功能。開源讓用戶需求變得透明?!?/p>

      目前,Unsloth 已經支持了 Llama 系列、Mistral、Gemma 系列、Phi 系列、Qwen 系列、DeepSeek 系列等主流開源模型。“我們的首要目標始終是開源,”Michael 強調,“讓所有模型都能用上我們的優化技術,而不只是少數幾個。”

      “當大公司用 100,000 塊 H100 訓練模型時,我們要證明,用更少的資源、更聰明的方法,也能讓 AI 惠及每一個人。”Daniel 說。

      參考資料:

      1.https://unsloth.ai/introducing

      2.https://unsloth.ai/blog/reintroducing

      3.https://www.youtube.com/watch?v=6t2zv4QXd6c

      4.https://www.youtube.com/watch?v=lyVxD0bJDOk

      5.https://www.youtube.com/watch?v=z9f4bEgFZCg

      運營/排版:何晨龍

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      中美防長會上,赫格賽斯反復強調一句話,在解放軍面前談起了自保

      中美防長會上,赫格賽斯反復強調一句話,在解放軍面前談起了自保

      博覽歷史
      2025-11-04 20:21:47
      國補確認恢復繼續!國補政策11月6日新消息:新一輪國補690億11月繼續發放,國補截止時間2025年12月31日

      國補確認恢復繼續!國補政策11月6日新消息:新一輪國補690億11月繼續發放,國補截止時間2025年12月31日

      開封網
      2025-11-06 10:59:20
      三只羊老K換賽道,合肥開店獲嘴哥喬妹支持,目前僅有三位高徒在

      三只羊老K換賽道,合肥開店獲嘴哥喬妹支持,目前僅有三位高徒在

      裕豐娛間說
      2025-11-06 10:37:52
      扁鵲為何從課本中移除?四川古墓出土9部醫書,揭開他的身世之謎

      扁鵲為何從課本中移除?四川古墓出土9部醫書,揭開他的身世之謎

      小豫講故事
      2025-10-28 06:00:07
      天津濱海高新區黨委原書記夏青林已任市工信局黨組書記

      天津濱海高新區黨委原書記夏青林已任市工信局黨組書記

      澎湃新聞
      2025-11-06 10:12:32
      他從正軍職空降新疆軍區副政委,機關:我們這里提不起一個政委?

      他從正軍職空降新疆軍區副政委,機關:我們這里提不起一個政委?

      大運河時空
      2025-11-04 21:40:03
      男孩摸蛋糕后續:媽媽正臉照,已社會性死亡,更惡心言論被扒

      男孩摸蛋糕后續:媽媽正臉照,已社會性死亡,更惡心言論被扒

      蜉蝣說
      2025-11-05 14:48:10
      墨西哥女總統當街遭男子猥褻,險遭親吻

      墨西哥女總統當街遭男子猥褻,險遭親吻

      觀威海
      2025-11-05 10:50:09
      2人重傷手術,凱斯勒賽季報銷!文班亞馬聯盟第1,老詹要被下放

      2人重傷手術,凱斯勒賽季報銷!文班亞馬聯盟第1,老詹要被下放

      世界體育圈
      2025-11-06 11:11:47
      遮蓋還能解鎖 蘋果:Face ID不用前置攝像頭

      遮蓋還能解鎖 蘋果:Face ID不用前置攝像頭

      PChome電腦之家
      2025-11-06 09:56:02
      震驚全韓!中國學生為工科拼命,韓國學生為醫學瘋魔,KBS紀錄片揭露真實現狀

      震驚全韓!中國學生為工科拼命,韓國學生為醫學瘋魔,KBS紀錄片揭露真實現狀

      最英國
      2025-11-03 19:26:41
      俄烏大結局終于要來?最大罪人已浮現,澤連斯基終于等來美方信號

      俄烏大結局終于要來?最大罪人已浮現,澤連斯基終于等來美方信號

      漫步獨行俠
      2025-11-05 11:12:25
      金價,大反轉!

      金價,大反轉!

      魯南商報
      2025-11-05 16:06:32
      WTA總決賽爆發群體性感染!凱斯退賽、連小米拉也婉拒替補出賽

      WTA總決賽爆發群體性感染!凱斯退賽、連小米拉也婉拒替補出賽

      體育妞世界
      2025-11-06 06:20:22
      當年,劉威給劉蓓打電話:偏兒,我要在北京租房子,你有門路沒?

      當年,劉威給劉蓓打電話:偏兒,我要在北京租房子,你有門路沒?

      忠于法紀
      2025-11-06 09:15:52
      李云迪再陷桃色風波,女主照片被扒疑似有兩人視頻流出

      李云迪再陷桃色風波,女主照片被扒疑似有兩人視頻流出

      挪威森林
      2025-11-02 12:56:16
      馬思純減重50斤后首度談心:我不是變強了,只是學會更愛自己了!

      馬思純減重50斤后首度談心:我不是變強了,只是學會更愛自己了!

      娛娛樂樂是個圈圈
      2025-11-04 21:39:34
      湖南前主持田源,直播間哭訴:維嘉能回去,求求前東家也讓我回去

      湖南前主持田源,直播間哭訴:維嘉能回去,求求前東家也讓我回去

      樂悠悠娛樂
      2025-11-05 10:38:51
      村莊設環保監測點,發通知限制燃油車進村?河南新鄉當地回應:注意到石墩堵路,正核查

      村莊設環保監測點,發通知限制燃油車進村?河南新鄉當地回應:注意到石墩堵路,正核查

      大風新聞
      2025-11-05 14:48:02
      全球第一,固態電池巨頭,拿下120億訂單!

      全球第一,固態電池巨頭,拿下120億訂單!

      飛鯨投研
      2025-11-05 09:08:06
      2025-11-06 11:43:00
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      15823文章數 514267關注度
      往期回顧 全部

      科技要聞

      蘋果“認輸”!曝每年10億美元租用谷歌AI

      頭條要聞

      東山精密收購法國知名企業:和安世半導體有很大不同

      頭條要聞

      東山精密收購法國知名企業:和安世半導體有很大不同

      體育要聞

      送走兩位全明星,公牛成了東部第一

      娛樂要聞

      白百何好友揭露爭獎細節

      財經要聞

      特朗普關稅遭美國高院大法官輪番質疑

      汽車要聞

      方向盤?不存在的 特斯拉 Cybercab亞太首秀

      態度原創

      藝術
      本地
      數碼
      健康
      房產

      藝術要聞

      180米!京東百億打造上海新總部,效果圖曝光太震撼!

      本地新聞

      這屆干飯人,已經把博物館吃成了食堂

      數碼要聞

      華為WATCH Ultimate 2官宣:11月7日10:08開啟預售

      超聲探頭會加重受傷情況嗎?

      房產要聞

      江東,給你留「門」兒了!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 午夜不卡久久精品无码免费| 亚洲国产性夜夜综合| 会东县| 好吊视频专区一区二区三区| 中文字幕乱码一区二区免费| 国产成人精彩在线视频| 中文人妻AV高清一区二区| 亚洲欧美日韩尤物AⅤ一区| 少妇无套内射中出视频| 国产偷拍自拍视频在线观看| 久久青青草原亚洲AV无码麻豆| 午夜福利院一区二区三区| 亚洲av成人在线一区| 久久精品国产亚洲av天海翼 | 国产精品一区二区三区污| 精选国产av精选一区二区三区| 少妇人妻系列无码专区视频| 77se77亚洲欧美在线| 国产午夜91福利一区二区| 久久久久国产精品熟女影院| 熟妇人妻久久精品一区二区 | 欧美日产国产精品| 国产精品有码在线观看| 好爽好紧好大的免费视频| 久久国产欧美日韩精品图片| 国产尤物精品自在拍视频首页| 五月天免费中文字幕av| 性视频一区| 亚洲另类激情专区小说图片| 亚洲国产成人精品av区按摩| 免费吃奶摸下激烈视频| 精品亚洲香蕉久久综合网| 国产高清视频一区二区三区| 偷拍精品一区二区三区 | 久久精品久久电影免费理论片| 亚洲午夜福利精品无码不卡| 亚洲人成电影网站 久久影视| 国产成人精品亚洲日本片| 久久久成人毛片无码| 亚洲一区二区三区啪啪| 国产jlzzjlzz视频免费看|