別踩微調(diào)坑！重SFT輕RLHF要不得，中小企業(yè)選PEFT更劃算

2025-11-01 11:12:33　來源: 窺史

河南舉報(bào)

分享至

現(xiàn)在做AI的都在聊大模型落地，但好多人卡在“微調(diào)”這步，不是技術(shù)本身多復(fù)雜，是沒搞懂它到底怎么把“啥都懂點(diǎn)但不精”的通用模型，變成“只在某個(gè)領(lǐng)域特別能打”的行業(yè)專家。

我之前跟做AI產(chǎn)品的朋友聊，他們總說“調(diào)完模型反而不如以前好用”，后來一看才發(fā)現(xiàn)，要么少了某步流程，要么沒避開“忘知識(shí)”的坑。

今天就用大白話講微調(diào)，拿職場新人張三的成長當(dāng)例子，咱們一步步說透。

想理解微調(diào)，先把大模型想象成剛畢業(yè)的張三。

張三在學(xué)校學(xué)了一堆通用知識(shí)，就像模型預(yù)訓(xùn)練時(shí)攢的“家底”，但真到公司上班，還得經(jīng)過崗前培訓(xùn)、師傅帶教、自己摸索優(yōu)化這幾步，這三步，正好對應(yīng)微調(diào)的核心流程。

第一步是監(jiān)督式微調(diào)（SFT），相當(dāng)于給張三發(fā)崗位手冊，讓他先摸清干活的規(guī)矩。

比如要做客服AI，就得給模型喂一堆“用戶問天氣+正確回答”的數(shù)據(jù)，像“查北京今天天氣”對應(yīng)“北京晴，15-28℃”這種。

好多團(tuán)隊(duì)栽在這步，以為隨便湊點(diǎn)數(shù)據(jù)就行，其實(shí)數(shù)據(jù)要是不精準(zhǔn)，比如回答里有錯(cuò)別字，模型學(xué)完只會(huì)錯(cuò)得更離譜。

這步的目標(biāo)很簡單，就是讓模型從“啥都懂點(diǎn)”變成“至少會(huì)干某行的活”。

等張三知道怎么干活了，得有人告訴他“這么干好不好”，不然他永遠(yuǎn)不知道改進(jìn)，這就是第二步，訓(xùn)練獎(jiǎng)勵(lì)模型（RM）。

具體做法是讓SFT后的模型針對一個(gè)問題生成好幾個(gè)回答，再找人工給這些回答排序，比如B比A好，A比D好。

這些排序數(shù)據(jù)會(huì)教獎(jiǎng)勵(lì)模型“怎么打分”，以后模型再出答案，獎(jiǎng)勵(lì)模型就能立刻給出“人類喜歡程度”的分?jǐn)?shù)。

這步最考驗(yàn)?zāi)托模瑯?biāo)注員要是不專業(yè)，把“不安全的回答”標(biāo)成好的，后面模型只會(huì)往歪了走。

我見過一個(gè)做教育AI的團(tuán)隊(duì)，就是RM標(biāo)注沒做好，模型居然給學(xué)生輸出錯(cuò)誤的解題思路，最后只能推倒重來。

最后一步是基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF），這步才是讓模型“開竅”的關(guān)鍵。

相當(dāng)于張三知道怎么干活，也知道怎么干能讓領(lǐng)導(dǎo)滿意，現(xiàn)在要主動(dòng)朝著“讓領(lǐng)導(dǎo)更滿意”的方向調(diào)整。

具體來說，就是讓SFT模型當(dāng)“干活的人”，獎(jiǎng)勵(lì)模型當(dāng)“評(píng)績效的人”，模型每次輸出答案，獎(jiǎng)勵(lì)模型就打分，模型再根據(jù)分?jǐn)?shù)調(diào)整自己的“干活方式”。

GPT-3到GPT-3.5的飛躍全靠這步，本來GPT-3只會(huì)按要求答題，經(jīng)過RLHF后，不僅答得對，還答得委婉、安全，就像張三從“會(huì)干活”變成“會(huì)干讓大家都舒服的活”。

別讓模型“忘本”：災(zāi)難性遺忘的坑咋躲？

微調(diào)看著順，但有個(gè)大麻煩，模型學(xué)新東西的時(shí)候，可能會(huì)忘了老本行，這在行業(yè)里叫“災(zāi)難性遺忘”。

就像張三專門學(xué)了寫代碼后，反而忘了怎么寫簡單的工作報(bào)告。

之前有個(gè)團(tuán)隊(duì)做法律AI，調(diào)完后模型改合同很厲害，卻連“合同是什么”都解釋不清，就是犯了這個(gè)錯(cuò)。

不過也不用慌，有三個(gè)實(shí)用策略能躲這個(gè)坑，具體選哪個(gè)，得看業(yè)務(wù)需求。

第一個(gè)策略是“取舍”，簡單說就是“只要專業(yè)，不怕忘通用”。

要是你就想做個(gè)只改代碼的AI，它忘了怎么分析情感有啥關(guān)系？這是最務(wù)實(shí)的做法，畢竟業(yè)務(wù)不需要的能力，丟了也不可惜。

我認(rèn)識(shí)一個(gè)做工業(yè)AI的朋友，他們的模型只用來檢測設(shè)備故障，就算模型不會(huì)寫文案，只要能精準(zhǔn)找出故障點(diǎn)，對業(yè)務(wù)來說就夠了。

這種策略的核心就是“不貪多”，聚焦一個(gè)點(diǎn)做到極致，比啥都懂點(diǎn)但不精強(qiáng)多了。

要是你既想要模型專業(yè)，又不想讓它忘通用知識(shí)，就得用第二個(gè)策略，“平衡數(shù)據(jù)”。

具體來說，就是在微調(diào)數(shù)據(jù)里混一部分通用數(shù)據(jù)和一部分垂直領(lǐng)域數(shù)據(jù)，比如做客服AI，既要有“查天氣”“問物流”的垂直數(shù)據(jù)，也要有“聊電影”“說美食”的通用數(shù)據(jù)。

本來想只加垂直數(shù)據(jù)，后來發(fā)現(xiàn)模型通用能力掉得厲害，才明白比例很關(guān)鍵，只是這個(gè)比例沒固定答案，得反復(fù)試。

有個(gè)做電商AI的團(tuán)隊(duì)，試了五次才找到“3成通用數(shù)據(jù)+7成電商數(shù)據(jù)”的最佳配比，這步急不來，得有耐心。

第三個(gè)策略對中小企業(yè)特別友好，叫參數(shù)高效微調(diào)（PEFT），核心是“不折騰老參數(shù)，只練新插件”。

就像給手機(jī)裝APP，不改變手機(jī)本身的系統(tǒng)，只加個(gè)新功能。

就是凍結(jié)模型99%以上的老參數(shù)，只訓(xùn)練少量新增的“輕量化參數(shù)”，常用的技術(shù)是LoRA。

這技術(shù)幫不少小企業(yè)省了錢，之前全量微調(diào)可能要花幾十萬，用PEFT后幾萬塊就能搞定，而且模型不容易忘老知識(shí)。

我有個(gè)做SaaS的朋友，用LoRA調(diào)模型，不僅成本降了不少，還能每天切換三個(gè)業(yè)務(wù)場景，效率高得很。

聊完技術(shù)，得說說實(shí)際操作里的坑。

好多人以為微調(diào)就是“搞完SFT就行”，把RM和RLHF當(dāng)擺設(shè)，結(jié)果模型能力強(qiáng)但老出問題，比如生成違規(guī)內(nèi)容，這就是沒做“價(jià)值對齊”。

還有些中小企業(yè)跟風(fēng)搞全量微調(diào)，明明算力不夠，非要硬上，最后成本超支還沒效果，其實(shí)選PEFT更劃算。

另外，微調(diào)不是一勞永逸的事，得定期更數(shù)據(jù)，不然模型會(huì)“知識(shí)老化”。

之前有個(gè)客服AI團(tuán)隊(duì)，調(diào)完后半年沒更數(shù)據(jù)，用戶問新出的產(chǎn)品，模型居然說“沒聽過”，這就是沒做持續(xù)迭代的鍋。

不同行業(yè)的微調(diào)案例也能給咱們不少啟發(fā)，招行做信貸審核AI的時(shí)候，SFT用了5年的真實(shí)信貸案例，RM專門盯著“風(fēng)險(xiǎn)識(shí)別”，RLHF優(yōu)化“回答合規(guī)性”，最后審核效率提了不少，誤判率也降了。

協(xié)和醫(yī)院做病歷分析AI時(shí)，選了PEFT技術(shù)，凍住大部分參數(shù)，只練“醫(yī)學(xué)術(shù)語理解”的插件，既保留了模型的通用醫(yī)學(xué)知識(shí)，又能精準(zhǔn)分析專科病歷。

新東方的作文批改AI更有意思，SFT用了10萬篇學(xué)生作文和教師評(píng)語，RM盯著“糾錯(cuò)準(zhǔn)確性”，RLHF則專門優(yōu)化“評(píng)語友好度”，最后學(xué)生用著舒服，老師也省了不少勁。

微調(diào)的未來：不是只有大企業(yè)能玩

現(xiàn)在好多人覺得微調(diào)是大企業(yè)的“專利”，其實(shí)不是，未來微調(diào)會(huì)越來越“平民化”。

第一個(gè)趨勢是多模態(tài)融合，以后不只是文本微調(diào)，還得結(jié)合圖片、語音。

比如教育AI，以后既要能改作文，還得能看學(xué)生的手寫解題步驟，甚至能聽學(xué)生的口語發(fā)音并糾錯(cuò)，這就需要多模態(tài)微調(diào)。

不過這也會(huì)帶來新挑戰(zhàn)，比如怎么讓模型同時(shí)學(xué)好文本和圖片知識(shí)，還不互相干擾，這是行業(yè)接下來要解決的問題。

第二個(gè)趨勢是自動(dòng)化工具普及，以后小企業(yè)不用懂代碼，也能做微調(diào)。

比如“文心千帆”出的“一鍵微調(diào)”功能，用戶只要上傳數(shù)據(jù)，點(diǎn)幾下按鈕就能完成全流程。

我跟做AI工具的朋友聊，他們說2025年左右，中小企業(yè)做微調(diào)的門檻會(huì)降很多，可能花幾千塊、幾天時(shí)間就能搞定。

這對想借AI落地的小企業(yè)來說，絕對是好消息，以后不用再羨慕大企業(yè)有專屬AI了。

其實(shí)說到底，微調(diào)不是單純的技術(shù)活，而是“系統(tǒng)活”，得把SFT的知識(shí)注入、RM的價(jià)值建模、RLHF的行為對齊串起來，還得根據(jù)自己的業(yè)務(wù)需求和預(yù)算選策略。

它的本質(zhì)，就是把“大學(xué)生水平”的通用模型，教成“能勝任某行工作”的行業(yè)專家。

以后誰能把微調(diào)玩明白，誰就能在AI落地里占先機(jī)，畢竟AI再厲害，不能解決具體業(yè)務(wù)問題，也只是個(gè)“花架子”。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點(diǎn)推薦

耿爽：既然美方直接點(diǎn)名那我也就不再含蓄了

政知新媒體 2025-11-07 08:37:46
2367 跟貼 2367
舷號(hào)“18”！福建艦，入列！

北京日報(bào)客戶端 2025-11-07 13:10:23
5877 跟貼 5877

福建艦入列臺(tái)媒:大陸對臺(tái)政策調(diào)整軟的更軟硬的更硬

環(huán)球網(wǎng)資訊 2025-11-07 19:53:14
424 跟貼 424

蘇州市委常委、副市長唐曉東被查，曾任吳中區(qū)委書記

澎湃新聞 2025-11-07 10:26:27
200 跟貼 200
萬億美元薪酬計(jì)劃獲壓倒性票數(shù)通過馬斯克：非常感激

環(huán)球網(wǎng)資訊 2025-11-07 08:53:27
1797 跟貼 1797

婁底14歲初中生作文看哭全網(wǎng)，得知爆火首先看惡評(píng)，回應(yīng)用AI質(zhì)疑：算是另一種夸獎(jiǎng)

瀟湘晨報(bào) 2025-11-07 21:19:50
164 跟貼 164

今年至少四地宣布將推行現(xiàn)房銷售：“所見即所得，從根本上防范交付風(fēng)險(xiǎn)”

澎湃新聞 2025-11-07 07:12:27
1845 跟貼 1845
杭州一小學(xué)學(xué)生列隊(duì)敬禮迎車輛入校引質(zhì)疑！教育局：嚴(yán)肅批評(píng)

南方都市報(bào) 2025-11-07 08:58:15
352 跟貼 352

11月9日，廣州將采取臨時(shí)交通管理措施

新快報(bào)新聞 2025-11-07 21:11:09
6 跟貼 6
張家界荒野求生挑戰(zhàn)賽進(jìn)入第30天，賽事方：百人參賽僅剩17名“狠人”，有人已瘦30斤

極目新聞 2025-11-07 11:34:15
1051 跟貼 1051
北約秘書長：北約彈藥產(chǎn)量已不低于俄羅斯

界面新聞 2025-11-07 16:50:21
1489 跟貼 1489
今天！全市供熱系統(tǒng)啟動(dòng)熱態(tài)調(diào)試

天津廣播 2025-11-07 10:44:28
208 跟貼 208
軍事專家：福建艦讓一些國外決策者變冷靜了

環(huán)球網(wǎng)資訊 2025-11-07 15:47:09
0 跟貼 0
一句話炸掉5000億美元市值！OpenAI緊急“救火”

第一財(cái)經(jīng)資訊 2025-11-07 18:19:04
1 跟貼 1
時(shí)隔8年，劉強(qiáng)東重返世界互聯(lián)網(wǎng)大會(huì)并做主題演講

極目新聞 2025-11-07 11:34:15
304 跟貼 304
蘋果喊話iPhone13和14用戶換新機(jī)：不如現(xiàn)在就17

界面新聞 2025-11-07 10:32:20
634 跟貼 634
杭州一小區(qū)物業(yè)退出不干了，選聘進(jìn)場4年，稱業(yè)主拖欠物業(yè)費(fèi)1200多萬元

大風(fēng)新聞 2025-11-07 08:57:02
1 跟貼 1
海關(guān)總署：恢復(fù)3家美企大豆輸華資質(zhì)

界面新聞 2025-11-07 19:14:23
111 跟貼 111
ASML展示首款先進(jìn)封裝大視場光刻機(jī)

財(cái)聯(lián)社 2025-11-07 20:51:05
12 跟貼 12
英國國王簽署詔書正式剝奪安德魯王子頭銜

央視新聞客戶端 2025-11-07 05:35:09
308 跟貼 308
豬價(jià)同比降逾三成三大上市豬企10月增量不增收

澎湃新聞 2025-11-07 08:54:28
315 跟貼 315
全國爆火的“人民咖啡館”，店名可能不合法？

學(xué)申論的談妹 2025-11-07 15:25:22
924 跟貼 924
全球首場“金箍棒發(fā)布會(huì)”！極氪金箍棒定義安全新模式

齊魯壹點(diǎn) 2025-11-07 11:10:51
342 跟貼 342
“成都龍泉山將舉辦荒野求生賽”不實(shí)——今日辟謠（2025年11月7日）

今日辟謠 2025-11-07 17:02:15
30 跟貼 30
溫州保安太囂張！從未見過如此猖狂

溫曉生 2025-11-08 00:00:55
0 跟貼 0
梅州一民房著火，現(xiàn)場一片狼藉！

梅州同城網(wǎng) 2025-11-08 00:02:04
0 跟貼 0
肇慶街頭奇葩事：共享單車上了樹！

知肇分子 2025-11-07 23:59:05
0 跟貼 0
氣憤！事發(fā)儀征一小區(qū)！誰改的？

儀征爆料 2025-11-08 00:05:28
0 跟貼 0

曾狂言臺(tái)積電領(lǐng)先大陸三十年的張忠謀現(xiàn)在厚臉皮求大陸給稀土

窺史

歷史是人類智慧的結(jié)晶，它包含了無數(shù)的寶藏和啟示。

2935文章數(shù) 164關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

數(shù)碼

手機(jī)

游戲

旅游

藝術(shù)

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

別踩微調(diào)坑！重SFT輕RLHF要不得，中小企業(yè)選PEFT更劃算

75%贊成！特斯拉股東同意馬斯克天價(jià)薪酬

家長稱男嬰被兩個(gè)不滿12周歲女孩害死：拿她們沒辦法

家長稱男嬰被兩個(gè)不滿12周歲女孩害死：拿她們沒辦法

是天才更是強(qiáng)者，18歲的全紅嬋邁過三道坎

王家衛(wèi)的“看人下菜碟”?

荷蘭政府：安世中國將很快恢復(fù)芯片供應(yīng)

美式豪華就是舒適省心 林肯航海家場地試駕

態(tài)度原創(chuàng)

微軟首款硬件Z - 80 SoftCard：80年代的意外“吸金王”

小米17 Ultra：潛望鏡頭已清晰！小米17系列：銷量已突破200萬！

海的那邊是什么？我會(huì)自己去看"/> 主站 商城 論壇 自運(yùn)營 登錄 注冊 海的那邊是什么？我會(huì)自己去看 廉頗 2025-11-07 返回專欄首頁 作者：...

四川這座村落為何吸引全球目光？探訪“最佳旅游鄉(xiāng)村”

地球的巨眼？亞洲第一銅礦藏190層深淵，能吞下59個(gè)西湖！

美式豪華就是舒適省心林肯航海家場地試駕

海的那邊是什么？我會(huì)自己去看"/> 主站商城論壇自運(yùn)營登錄注冊海的那邊是什么？我會(huì)自己去看廉頗 2025-11-07 返回專欄首頁作者：...