網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

2張4090竟能本地微調(diào)萬(wàn)億參數(shù)Kimi K2！國(guó)產(chǎn)玩家把算力門檻擊穿了

2025-11-05 15:56:24　來(lái)源: 量子位

北京舉報(bào)

分享至

金磊發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

微調(diào)超大參數(shù)模型，現(xiàn)在的“打開方式”已經(jīng)大變樣了：

僅需2-4 張消費(fèi)級(jí)顯卡（4090），就能在本地對(duì)DeepSeek 671B乃至Kimi K2 1TB這樣的超大模型進(jìn)行微調(diào)了。

你沒(méi)有看錯(cuò)。

這要放以前啊，各路“煉丹師”是想都不敢這么想的。因?yàn)榘凑諅鹘y(tǒng)的方法，類似Kimi K2 1TB參數(shù)的模型，用LoRA微調(diào)方案理論上需要高達(dá)2000GB的顯存，而即便是參數(shù)量稍小的 DeepSeek-671B的模型微調(diào)也需要1400G的顯存。

什么概念？

一張H100（80GB）得十幾張起步，說(shuō)是吞礦也是不足為過(guò)了。

而現(xiàn)在微調(diào)千億/萬(wàn)億參數(shù)模型的成本能打如此骨折，背后的關(guān)鍵源自兩個(gè)國(guó)產(chǎn)明星項(xiàng)目的聯(lián)動(dòng)。

首先就是KTransformers

，是由趨境科技和清華KVCache.AI共同開源的項(xiàng)目，GitHub已經(jīng)斬獲15.3K星?。

KTransformer此前在大模型推理領(lǐng)域就已聲名鵲起，憑借GPU+CPU的異構(gòu)推理的創(chuàng)新路徑成為主流推理框架之一，通過(guò)KTransformers利用單張4090可以推理Kimi K2 1TB級(jí)別大模型。

而這一次，KTransformers已經(jīng)支持LoRA微調(diào)，同樣是Kimi K2 1TB這樣參數(shù)的模型，僅90G左右的顯存即可；微調(diào)參數(shù)量稍小的 DeepSeek 671B也僅需70G左右的顯存。真·把成本給打下去了。

另一個(gè)國(guó)產(chǎn)明星項(xiàng)目，則是LLaMA-Factory，在GitHub的星標(biāo)數(shù)超6萬(wàn)。它是一個(gè)簡(jiǎn)單易用且高效的大語(yǔ)言模型訓(xùn)練與微調(diào)平臺(tái)，讓用戶無(wú)需編寫代碼，即可在本地完成上百種預(yù)訓(xùn)練模型的微調(diào)。

它倆的聯(lián)動(dòng)模式是這樣的：

LLaMA-Factory是整個(gè)微調(diào)流程的統(tǒng)一調(diào)度與配置框架，負(fù)責(zé)數(shù)據(jù)處理、訓(xùn)練調(diào)度、LoRA（Low-Rank Adaptation）插入與推理接口管理。
KTransformers則作為其可插拔的高性能后端，在相同的訓(xùn)練配置下接管Attention / MoE等核心算子，實(shí)現(xiàn)異構(gòu)設(shè)備的高效協(xié)同。

這時(shí)候或許有小伙伴要問(wèn)了，把KTransformers換成其它類似的推理框架不行嗎？

答案是，真不行。

例如我們把KTransformers、HuggingFace和Unsloth三種后端的LoRA微調(diào)方案放一起比較下效果。

結(jié)果顯示，KTransformers為超大規(guī)模的MoE模型（Kimi K2 1TB等）提供了4090級(jí)別的唯一可行方案，并在較小規(guī)模的MoE模型（DeepSeek-14B）上面也展現(xiàn)了更高的吞吐和更低的顯存占用。

嗯，KTransformers可以說(shuō)是硬生生把微調(diào)超大模型的門檻，從數(shù)據(jù)中心級(jí)拉到了個(gè)人工作站級(jí)了，而且速度極快。

雖然成本是打下來(lái)了，但下一個(gè)問(wèn)題是——效果會(huì)不會(huì)也打折？

用骨折的開銷自定義千億/萬(wàn)億大模型

大模型用在專業(yè)領(lǐng)域的時(shí)候，往往令人頭疼的一個(gè)點(diǎn)就是“懂得多≠懂得精”，這就是微調(diào)要解決的問(wèn)題。

而正所謂實(shí)踐是檢驗(yàn)真理的唯一標(biāo)準(zhǔn)，效果打不打折，實(shí)測(cè)說(shuō)了算。微調(diào)Kimi K2 1TB模型需要90G左右顯存+2T左右的內(nèi)存，微調(diào) DeepSeek 671B模型需要70G左右顯存+1.5T左右的內(nèi)存。以下用 DeepSeek 671B模型為測(cè)試樣例來(lái)看微調(diào)效果：

第一個(gè)測(cè)試的例子，是讓DeepSeek在微調(diào)之后，生成的文字可以有喵娘（CatGirl）效果的語(yǔ)氣。

數(shù)據(jù)集采用的是NekoQA-10K，是一種面向貓娘語(yǔ)言建模的對(duì)話數(shù)據(jù)集，來(lái)看下效果：

微調(diào)前，若是提問(wèn)一個(gè)問(wèn)題：

我舌頭壞了怎么辦，吃什么檸檬都是酸的。

模型的回答是冷冰冰的AI味：1、保持口腔衛(wèi)生……2、避免刺激性食物……3、避免酸性食物……

Emmm……著實(shí)是莫得感情。

而微調(diào)后，模型的答案變成了：

主人舌頭不舒服嗎？寶寶好擔(dān)心喵！（耳朵聳拉下來(lái)）檸檬酸是因?yàn)闄幟世锩嬗袡幟仕崂玻@是正常的喵~”。
微調(diào)前后，簡(jiǎn)直判若兩AI，是我們想要的喵味十足的那種。

當(dāng)然，不止是變喵娘這種整活兒，在嚴(yán)肅的專業(yè)領(lǐng)域，KTransformers的微調(diào)能力同樣能打。

接下來(lái)的測(cè)試，采用了非洲醫(yī)療數(shù)據(jù)集（AfriMed-QA），包含醫(yī)療選擇題和簡(jiǎn)答題，是垂直領(lǐng)域微調(diào)的試金石。

在這些具有明確風(fēng)格和知識(shí)需求的任務(wù)上，經(jīng)過(guò)KTransformers后端LoRA微調(diào)的模型，各項(xiàng)評(píng)測(cè)指標(biāo)（如BLEU、ROUGE、Accuracy）均獲得了大幅提升。

這些個(gè)例子還都是開胃菜，微調(diào)背后真正有意思的，是開啟了AI的個(gè)性化定制時(shí)代。

以前我們用大模型，基本上就是“模型有啥，你用啥”；但現(xiàn)在，成本打下來(lái)了之后，玩法就多了去了：

定制你的專屬風(fēng)格：不只是喵娘，你可以用自己的聊天記錄、郵件、文檔去微調(diào)，打造一個(gè)“你風(fēng)格”的寫作助手，讓它幫你回郵件、寫周報(bào)，口吻跟你一模一樣。
打造私有知識(shí)庫(kù)助手：把公司內(nèi)部的SOP、技術(shù)文檔、法律條文喂給它，微調(diào)出一個(gè)只為你公司服務(wù)的AI專家，問(wèn)啥都懂，而且數(shù)據(jù)不出本地，絕對(duì)安全。
創(chuàng)造靈魂伴侶：把你喜歡的某個(gè)角色、某位歷史人物的語(yǔ)料丟進(jìn)去，微調(diào)一個(gè)能隨時(shí)隨地和你角色扮演的聊天機(jī)器人。
深入垂直領(lǐng)域：就像原稿里提到的，用專業(yè)數(shù)據(jù)集（比如醫(yī)療、法律）微調(diào)，模型在特定領(lǐng)域的表現(xiàn)會(huì)暴漲。這在嚴(yán)肅的專業(yè)領(lǐng)域同樣有用。

這意味著，大模型不再是少數(shù)機(jī)構(gòu)的專屬技術(shù)，而成為高校、團(tuán)隊(duì)乃至個(gè)人都能駕馭的創(chuàng)意工具。算力門檻的消失，讓更多垂直需求與獨(dú)特想法得以實(shí)現(xiàn)，從而催生前所未有的應(yīng)用創(chuàng)新。

對(duì)企業(yè)而言，KTransformers帶來(lái)的低成本微調(diào)能力，也為落地大模型提供了新選項(xiàng)：

企業(yè)不再需要賭一個(gè)大而全的通用模型，而是可以快速在多個(gè)業(yè)務(wù)方向上進(jìn)行測(cè)試，用私有數(shù)據(jù)喂出一個(gè)個(gè)懂自家業(yè)務(wù)的AI專家——無(wú)論是客服、營(yíng)銷還是內(nèi)部知識(shí)管理，迭代效率和投資回報(bào)率都遠(yuǎn)超以往。

這，才是低成本微調(diào)的真正魅力：它讓大模型從一個(gè)高高在上的全知全能工具，變成了每個(gè)人、每個(gè)企業(yè)都能隨心定制的專屬生產(chǎn)力。

用起來(lái)也是超方便的

而且啊，KTransformers和LLaMA-Factory聯(lián)動(dòng)之下，操作方式也變得非常簡(jiǎn)單。

趨境科技為KTransformers本次封裝了wheel包，避免本地編譯，安裝極簡(jiǎn)。

你只需同時(shí)安裝KTransformers和LLaMA-Factory環(huán)境，把use_kt設(shè)置為true，并指定相應(yīng)的kt_optimize_rule YAML 文件，然后像往常一樣啟動(dòng)LLaMA-Factory的訓(xùn)練命令。

LLaMA-Factory會(huì)自動(dòng)負(fù)責(zé)所有的數(shù)據(jù)處理、訓(xùn)練調(diào)度、LoRA插入。而KTransformers則會(huì)作為即插即拔的高性能后端，在底層默默接管所有Attention和MoE的核心算子，實(shí)現(xiàn)GPU+CPU的高效協(xié)同。

若是用一個(gè)公式來(lái)總結(jié)二者的聯(lián)動(dòng)，或許可以是：

底層極致性能（KTransformers）+ 上層易用性（LLaMA-Factory）= 微調(diào)界的平民法拉利

至于背后的原理，我們可以簡(jiǎn)單總結(jié)為一套組合拳：

第一拳：把最重的包袱甩給CPU。 MoE模型最吃顯存的專家層，KTransformers直接讓CPU內(nèi)存來(lái)扛。GPU解放出來(lái)專心算它擅長(zhǎng)的。結(jié)果：671B的模型，顯存占用從1400GB+理論值，硬是被壓到了70GB！
第二拳：LoRA和高性能算子無(wú)縫合體。簡(jiǎn)單說(shuō)，它搞了個(gè)新設(shè)計(jì)，讓你在享受KTransformers極致速度的同時(shí)，還能無(wú)縫插入LoRA微調(diào)，兩邊的好處都占了。
第三拳：榨干CPU。甩給CPU的任務(wù)，也不是讓它摸魚。KTransformers集成了Intel AMX指令集，讓CPU處理AI運(yùn)算也猛得一批。

KTransformers背后的團(tuán)隊(duì)——趨境科技與清華KVCache.AI，值得再次被提及。

趨境科技在異構(gòu)推理這件事上早就聲名在外。他們最擅長(zhǎng)的，就是“榨干”硬件的每一分性能，讓GPU、CPU、內(nèi)存協(xié)同作戰(zhàn)，在推理上做到了極致的低成本和高性能，讓許多跑不起昂貴GPU的團(tuán)隊(duì)也能用上大模型。

如今，趨境科技將這一優(yōu)勢(shì)延伸至微調(diào)領(lǐng)域，并與社區(qū)人氣極高的LLaMA-Factory框架無(wú)縫集成，無(wú)疑是一次強(qiáng)強(qiáng)聯(lián)合。

從推理到微調(diào)這一路徑的發(fā)展，非常明顯的就是劍指加速AI大模型落地，而且是更好更便宜的那種。

這對(duì)于資源有限的學(xué)術(shù)界、渴望快速迭代的創(chuàng)業(yè)公司，乃至充滿熱情的個(gè)人開發(fā)者來(lái)說(shuō)，無(wú)異于一場(chǎng)及時(shí)雨。

而且此舉還意味著，創(chuàng)新的邊界被再次拓寬。你可以不再受限于模型的大小，而是專注于你的創(chuàng)意和數(shù)據(jù)——無(wú)論是打造一個(gè)獨(dú)一無(wú)二的虛擬角色，還是構(gòu)建一個(gè)解決特定行業(yè)痛點(diǎn)的專業(yè)模型。

最后，我們找到了微調(diào)的詳細(xì)技術(shù)文檔和用戶操作指南，如果你手上現(xiàn)在就有幾塊消費(fèi)級(jí)顯卡，不妨可以嘗試一下這個(gè)性價(jià)比極高的微調(diào)大法哦~

KTransformers項(xiàng)目地址：https://github.com/kvcache-ai/ktransformers

LLaMA-Factory項(xiàng)目地址：https://github.com/hiyouga/LLaMA-Factory

技術(shù)文檔和操作指南：https://mp.weixin.qq.com/s/VR88J7K-AsHcucnSJL-tZQ

聲明：包含AI生成內(nèi)容

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.