金磊 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
微調(diào)超大參數(shù)模型,現(xiàn)在的“打開方式”已經(jīng)大變樣了:
僅需2-4 張消費(fèi)級(jí)顯卡(4090),就能在本地對(duì)DeepSeek 671B乃至Kimi K2 1TB這樣的超大模型進(jìn)行微調(diào)了。
![]()
你沒(méi)有看錯(cuò)。
這要放以前啊,各路“煉丹師”是想都不敢這么想的。因?yàn)榘凑諅鹘y(tǒng)的方法,類似Kimi K2 1TB參數(shù)的模型,用LoRA微調(diào)方案理論上需要高達(dá)2000GB的顯存,而即便是參數(shù)量稍小的 DeepSeek-671B的模型微調(diào)也需要1400G的顯存。
什么概念?
一張H100(80GB)得十幾張起步,說(shuō)是吞礦也是不足為過(guò)了。
而現(xiàn)在微調(diào)千億/萬(wàn)億參數(shù)模型的成本能打如此骨折,背后的關(guān)鍵源自兩個(gè)國(guó)產(chǎn)明星項(xiàng)目的聯(lián)動(dòng)。
首先就是KTransformers
,是由趨境科技和清華KVCache.AI共同開源的項(xiàng)目,GitHub已經(jīng)斬獲15.3K星?。
![]()
KTransformer此前在大模型推理領(lǐng)域就已聲名鵲起,憑借GPU+CPU的異構(gòu)推理的創(chuàng)新路徑成為主流推理框架之一,通過(guò)KTransformers利用單張4090可以推理Kimi K2 1TB級(jí)別大模型。
而這一次,KTransformers已經(jīng)支持LoRA微調(diào),同樣是Kimi K2 1TB這樣參數(shù)的模型,僅90G左右的顯存即可;微調(diào)參數(shù)量稍小的 DeepSeek 671B也僅需70G左右的顯存。真·把成本給打下去了。
另一個(gè)國(guó)產(chǎn)明星項(xiàng)目,則是LLaMA-Factory,在GitHub的星標(biāo)數(shù)超6萬(wàn)。它是一個(gè)簡(jiǎn)單易用且高效的大語(yǔ)言模型訓(xùn)練與微調(diào)平臺(tái),讓用戶無(wú)需編寫代碼,即可在本地完成上百種預(yù)訓(xùn)練模型的微調(diào)。
![]()
它倆的聯(lián)動(dòng)模式是這樣的:
- LLaMA-Factory是整個(gè)微調(diào)流程的統(tǒng)一調(diào)度與配置框架,負(fù)責(zé)數(shù)據(jù)處理、訓(xùn)練調(diào)度、LoRA(Low-Rank Adaptation)插入與推理接口管理。
- KTransformers則作為其可插拔的高性能后端,在相同的訓(xùn)練配置下接管Attention / MoE等核心算子,實(shí)現(xiàn)異構(gòu)設(shè)備的高效協(xié)同。
這時(shí)候或許有小伙伴要問(wèn)了,把KTransformers換成其它類似的推理框架不行嗎?
答案是,真不行。
例如我們把KTransformers、HuggingFace和Unsloth三種后端的LoRA微調(diào)方案放一起比較下效果。
![]()
結(jié)果顯示,KTransformers為超大規(guī)模的MoE模型(Kimi K2 1TB等)提供了4090級(jí)別的唯一可行方案,并在較小規(guī)模的MoE模型(DeepSeek-14B)上面也展現(xiàn)了更高的吞吐和更低的顯存占用。
![]()
嗯,KTransformers可以說(shuō)是硬生生把微調(diào)超大模型的門檻,從數(shù)據(jù)中心級(jí)拉到了個(gè)人工作站級(jí)了,而且速度極快。
雖然成本是打下來(lái)了,但下一個(gè)問(wèn)題是——效果會(huì)不會(huì)也打折?
用骨折的開銷自定義千億/萬(wàn)億大模型
大模型用在專業(yè)領(lǐng)域的時(shí)候,往往令人頭疼的一個(gè)點(diǎn)就是“懂得多≠懂得精”,這就是微調(diào)要解決的問(wèn)題。
而正所謂實(shí)踐是檢驗(yàn)真理的唯一標(biāo)準(zhǔn),效果打不打折,實(shí)測(cè)說(shuō)了算。微調(diào)Kimi K2 1TB模型需要90G左右顯存+2T左右的內(nèi)存,微調(diào) DeepSeek 671B模型需要70G左右顯存+1.5T左右的內(nèi)存。以下用 DeepSeek 671B模型為測(cè)試樣例來(lái)看微調(diào)效果:
第一個(gè)測(cè)試的例子,是讓DeepSeek在微調(diào)之后,生成的文字可以有喵娘(CatGirl)效果的語(yǔ)氣。
數(shù)據(jù)集采用的是NekoQA-10K,是一種面向貓娘語(yǔ)言建模的對(duì)話數(shù)據(jù)集,來(lái)看下效果:
![]()
微調(diào)前,若是提問(wèn)一個(gè)問(wèn)題:
- 我舌頭壞了怎么辦,吃什么檸檬都是酸的。
模型的回答是冷冰冰的AI味:1、保持口腔衛(wèi)生……2、避免刺激性食物……3、避免酸性食物……
Emmm……著實(shí)是莫得感情。
而微調(diào)后,模型的答案變成了:
- 主人舌頭不舒服嗎?寶寶好擔(dān)心喵!(耳朵聳拉下來(lái))檸檬酸是因?yàn)闄幟世锩嬗袡幟仕崂玻@是正常的喵~”。
- 微調(diào)前后,簡(jiǎn)直判若兩AI,是我們想要的喵味十足的那種。
當(dāng)然,不止是變喵娘這種整活兒,在嚴(yán)肅的專業(yè)領(lǐng)域,KTransformers的微調(diào)能力同樣能打。
接下來(lái)的測(cè)試,采用了非洲醫(yī)療數(shù)據(jù)集(AfriMed-QA),包含醫(yī)療選擇題和簡(jiǎn)答題,是垂直領(lǐng)域微調(diào)的試金石。
![]()
在這些具有明確風(fēng)格和知識(shí)需求的任務(wù)上,經(jīng)過(guò)KTransformers后端LoRA微調(diào)的模型,各項(xiàng)評(píng)測(cè)指標(biāo)(如BLEU、ROUGE、Accuracy)均獲得了大幅提升。
這些個(gè)例子還都是開胃菜,微調(diào)背后真正有意思的,是開啟了AI的個(gè)性化定制時(shí)代。
以前我們用大模型,基本上就是“模型有啥,你用啥”;但現(xiàn)在,成本打下來(lái)了之后,玩法就多了去了:
- 定制你的專屬風(fēng)格:不只是喵娘,你可以用自己的聊天記錄、郵件、文檔去微調(diào),打造一個(gè)“你風(fēng)格”的寫作助手,讓它幫你回郵件、寫周報(bào),口吻跟你一模一樣。
- 打造私有知識(shí)庫(kù)助手:把公司內(nèi)部的SOP、技術(shù)文檔、法律條文喂給它,微調(diào)出一個(gè)只為你公司服務(wù)的AI專家,問(wèn)啥都懂,而且數(shù)據(jù)不出本地,絕對(duì)安全。
- 創(chuàng)造靈魂伴侶: 把你喜歡的某個(gè)角色、某位歷史人物的語(yǔ)料丟進(jìn)去,微調(diào)一個(gè)能隨時(shí)隨地和你角色扮演的聊天機(jī)器人。
- 深入垂直領(lǐng)域: 就像原稿里提到的,用專業(yè)數(shù)據(jù)集(比如醫(yī)療、法律)微調(diào),模型在特定領(lǐng)域的表現(xiàn)會(huì)暴漲。這在嚴(yán)肅的專業(yè)領(lǐng)域同樣有用。
這意味著,大模型不再是少數(shù)機(jī)構(gòu)的專屬技術(shù),而成為高校、團(tuán)隊(duì)乃至個(gè)人都能駕馭的創(chuàng)意工具。算力門檻的消失,讓更多垂直需求與獨(dú)特想法得以實(shí)現(xiàn),從而催生前所未有的應(yīng)用創(chuàng)新。
對(duì)企業(yè)而言,KTransformers帶來(lái)的低成本微調(diào)能力,也為落地大模型提供了新選項(xiàng):
企業(yè)不再需要賭一個(gè)大而全的通用模型,而是可以快速在多個(gè)業(yè)務(wù)方向上進(jìn)行測(cè)試,用私有數(shù)據(jù)喂出一個(gè)個(gè)懂自家業(yè)務(wù)的AI專家——無(wú)論是客服、營(yíng)銷還是內(nèi)部知識(shí)管理,迭代效率和投資回報(bào)率都遠(yuǎn)超以往。
這,才是低成本微調(diào)的真正魅力:它讓大模型從一個(gè)高高在上的全知全能工具,變成了每個(gè)人、每個(gè)企業(yè)都能隨心定制的專屬生產(chǎn)力。
用起來(lái)也是超方便的
而且啊,KTransformers和LLaMA-Factory聯(lián)動(dòng)之下,操作方式也變得非常簡(jiǎn)單。
趨境科技為KTransformers本次封裝了wheel包,避免本地編譯,安裝極簡(jiǎn)。
你只需同時(shí)安裝KTransformers和LLaMA-Factory環(huán)境,把use_kt設(shè)置為true,并指定相應(yīng)的kt_optimize_rule YAML 文件,然后像往常一樣啟動(dòng)LLaMA-Factory的訓(xùn)練命令。
LLaMA-Factory會(huì)自動(dòng)負(fù)責(zé)所有的數(shù)據(jù)處理、訓(xùn)練調(diào)度、LoRA插入。而KTransformers則會(huì)作為即插即拔的高性能后端,在底層默默接管所有Attention和MoE的核心算子,實(shí)現(xiàn)GPU+CPU的高效協(xié)同。
若是用一個(gè)公式來(lái)總結(jié)二者的聯(lián)動(dòng),或許可以是:
底層極致性能(KTransformers)+ 上層易用性(LLaMA-Factory)= 微調(diào)界的平民法拉利
至于背后的原理,我們可以簡(jiǎn)單總結(jié)為一套組合拳:
- 第一拳:把最重的包袱甩給CPU。 MoE模型最吃顯存的專家層,KTransformers直接讓CPU內(nèi)存來(lái)扛。GPU解放出來(lái)專心算它擅長(zhǎng)的。結(jié)果:671B的模型,顯存占用從1400GB+理論值,硬是被壓到了70GB!
- 第二拳:LoRA和高性能算子無(wú)縫合體。 簡(jiǎn)單說(shuō),它搞了個(gè)新設(shè)計(jì),讓你在享受KTransformers極致速度的同時(shí),還能無(wú)縫插入LoRA微調(diào),兩邊的好處都占了。
- 第三拳:榨干CPU。 甩給CPU的任務(wù),也不是讓它摸魚。KTransformers集成了Intel AMX指令集,讓CPU處理AI運(yùn)算也猛得一批。
KTransformers背后的團(tuán)隊(duì)——趨境科技與清華KVCache.AI,值得再次被提及。
趨境科技在異構(gòu)推理這件事上早就聲名在外。他們最擅長(zhǎng)的,就是“榨干”硬件的每一分性能,讓GPU、CPU、內(nèi)存協(xié)同作戰(zhàn),在推理上做到了極致的低成本和高性能,讓許多跑不起昂貴GPU的團(tuán)隊(duì)也能用上大模型。
如今,趨境科技將這一優(yōu)勢(shì)延伸至微調(diào)領(lǐng)域,并與社區(qū)人氣極高的LLaMA-Factory框架無(wú)縫集成,無(wú)疑是一次強(qiáng)強(qiáng)聯(lián)合。
從推理到微調(diào)這一路徑的發(fā)展,非常明顯的就是劍指加速AI大模型落地,而且是更好更便宜的那種。
這對(duì)于資源有限的學(xué)術(shù)界、渴望快速迭代的創(chuàng)業(yè)公司,乃至充滿熱情的個(gè)人開發(fā)者來(lái)說(shuō),無(wú)異于一場(chǎng)及時(shí)雨。
而且此舉還意味著,創(chuàng)新的邊界被再次拓寬。你可以不再受限于模型的大小,而是專注于你的創(chuàng)意和數(shù)據(jù)——無(wú)論是打造一個(gè)獨(dú)一無(wú)二的虛擬角色,還是構(gòu)建一個(gè)解決特定行業(yè)痛點(diǎn)的專業(yè)模型。
最后,我們找到了微調(diào)的詳細(xì)技術(shù)文檔和用戶操作指南,如果你手上現(xiàn)在就有幾塊消費(fèi)級(jí)顯卡,不妨可以嘗試一下這個(gè)性價(jià)比極高的微調(diào)大法哦~
KTransformers項(xiàng)目地址:https://github.com/kvcache-ai/ktransformers
LLaMA-Factory項(xiàng)目地址:https://github.com/hiyouga/LLaMA-Factory
技術(shù)文檔和操作指南:https://mp.weixin.qq.com/s/VR88J7K-AsHcucnSJL-tZQ
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.