<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

      別踩微調(diào)坑!重SFT輕RLHF要不得,中小企業(yè)選PEFT更劃算

      0
      分享至

      現(xiàn)在做AI的都在聊大模型落地,但好多人卡在“微調(diào)”這步,不是技術(shù)本身多復(fù)雜,是沒搞懂它到底怎么把“啥都懂點(diǎn)但不精”的通用模型,變成“只在某個(gè)領(lǐng)域特別能打”的行業(yè)專家。

      我之前跟做AI產(chǎn)品的朋友聊,他們總說“調(diào)完模型反而不如以前好用”,后來一看才發(fā)現(xiàn),要么少了某步流程,要么沒避開“忘知識(shí)”的坑。

      今天就用大白話講微調(diào),拿職場新人張三的成長當(dāng)例子,咱們一步步說透。



      想理解微調(diào),先把大模型想象成剛畢業(yè)的張三。

      張三在學(xué)校學(xué)了一堆通用知識(shí),就像模型預(yù)訓(xùn)練時(shí)攢的“家底”,但真到公司上班,還得經(jīng)過崗前培訓(xùn)、師傅帶教、自己摸索優(yōu)化這幾步,這三步,正好對應(yīng)微調(diào)的核心流程。

      第一步是監(jiān)督式微調(diào)(SFT),相當(dāng)于給張三發(fā)崗位手冊,讓他先摸清干活的規(guī)矩。

      比如要做客服AI,就得給模型喂一堆“用戶問天氣+正確回答”的數(shù)據(jù),像“查北京今天天氣”對應(yīng)“北京晴,15-28℃”這種。



      好多團(tuán)隊(duì)栽在這步,以為隨便湊點(diǎn)數(shù)據(jù)就行,其實(shí)數(shù)據(jù)要是不精準(zhǔn),比如回答里有錯(cuò)別字,模型學(xué)完只會(huì)錯(cuò)得更離譜。

      這步的目標(biāo)很簡單,就是讓模型從“啥都懂點(diǎn)”變成“至少會(huì)干某行的活”。

      等張三知道怎么干活了,得有人告訴他“這么干好不好”,不然他永遠(yuǎn)不知道改進(jìn),這就是第二步,訓(xùn)練獎(jiǎng)勵(lì)模型(RM)。

      具體做法是讓SFT后的模型針對一個(gè)問題生成好幾個(gè)回答,再找人工給這些回答排序,比如B比A好,A比D好。



      這些排序數(shù)據(jù)會(huì)教獎(jiǎng)勵(lì)模型“怎么打分”,以后模型再出答案,獎(jiǎng)勵(lì)模型就能立刻給出“人類喜歡程度”的分?jǐn)?shù)。

      這步最考驗(yàn)?zāi)托模瑯?biāo)注員要是不專業(yè),把“不安全的回答”標(biāo)成好的,后面模型只會(huì)往歪了走。

      我見過一個(gè)做教育AI的團(tuán)隊(duì),就是RM標(biāo)注沒做好,模型居然給學(xué)生輸出錯(cuò)誤的解題思路,最后只能推倒重來。

      最后一步是基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF),這步才是讓模型“開竅”的關(guān)鍵。



      相當(dāng)于張三知道怎么干活,也知道怎么干能讓領(lǐng)導(dǎo)滿意,現(xiàn)在要主動(dòng)朝著“讓領(lǐng)導(dǎo)更滿意”的方向調(diào)整。

      具體來說,就是讓SFT模型當(dāng)“干活的人”,獎(jiǎng)勵(lì)模型當(dāng)“評(píng)績效的人”,模型每次輸出答案,獎(jiǎng)勵(lì)模型就打分,模型再根據(jù)分?jǐn)?shù)調(diào)整自己的“干活方式”。

      GPT-3到GPT-3.5的飛躍全靠這步,本來GPT-3只會(huì)按要求答題,經(jīng)過RLHF后,不僅答得對,還答得委婉、安全,就像張三從“會(huì)干活”變成“會(huì)干讓大家都舒服的活”。

      別讓模型“忘本”:災(zāi)難性遺忘的坑咋躲?



      微調(diào)看著順,但有個(gè)大麻煩,模型學(xué)新東西的時(shí)候,可能會(huì)忘了老本行,這在行業(yè)里叫“災(zāi)難性遺忘”。

      就像張三專門學(xué)了寫代碼后,反而忘了怎么寫簡單的工作報(bào)告。

      之前有個(gè)團(tuán)隊(duì)做法律AI,調(diào)完后模型改合同很厲害,卻連“合同是什么”都解釋不清,就是犯了這個(gè)錯(cuò)。

      不過也不用慌,有三個(gè)實(shí)用策略能躲這個(gè)坑,具體選哪個(gè),得看業(yè)務(wù)需求。



      第一個(gè)策略是“取舍”,簡單說就是“只要專業(yè),不怕忘通用”。

      要是你就想做個(gè)只改代碼的AI,它忘了怎么分析情感有啥關(guān)系?這是最務(wù)實(shí)的做法,畢竟業(yè)務(wù)不需要的能力,丟了也不可惜。

      我認(rèn)識(shí)一個(gè)做工業(yè)AI的朋友,他們的模型只用來檢測設(shè)備故障,就算模型不會(huì)寫文案,只要能精準(zhǔn)找出故障點(diǎn),對業(yè)務(wù)來說就夠了。

      這種策略的核心就是“不貪多”,聚焦一個(gè)點(diǎn)做到極致,比啥都懂點(diǎn)但不精強(qiáng)多了。



      要是你既想要模型專業(yè),又不想讓它忘通用知識(shí),就得用第二個(gè)策略,“平衡數(shù)據(jù)”。

      具體來說,就是在微調(diào)數(shù)據(jù)里混一部分通用數(shù)據(jù)和一部分垂直領(lǐng)域數(shù)據(jù),比如做客服AI,既要有“查天氣”“問物流”的垂直數(shù)據(jù),也要有“聊電影”“說美食”的通用數(shù)據(jù)。

      本來想只加垂直數(shù)據(jù),后來發(fā)現(xiàn)模型通用能力掉得厲害,才明白比例很關(guān)鍵,只是這個(gè)比例沒固定答案,得反復(fù)試。

      有個(gè)做電商AI的團(tuán)隊(duì),試了五次才找到“3成通用數(shù)據(jù)+7成電商數(shù)據(jù)”的最佳配比,這步急不來,得有耐心。



      第三個(gè)策略對中小企業(yè)特別友好,叫參數(shù)高效微調(diào)(PEFT),核心是“不折騰老參數(shù),只練新插件”。

      就像給手機(jī)裝APP,不改變手機(jī)本身的系統(tǒng),只加個(gè)新功能。

      就是凍結(jié)模型99%以上的老參數(shù),只訓(xùn)練少量新增的“輕量化參數(shù)”,常用的技術(shù)是LoRA。

      這技術(shù)幫不少小企業(yè)省了錢,之前全量微調(diào)可能要花幾十萬,用PEFT后幾萬塊就能搞定,而且模型不容易忘老知識(shí)。



      我有個(gè)做SaaS的朋友,用LoRA調(diào)模型,不僅成本降了不少,還能每天切換三個(gè)業(yè)務(wù)場景,效率高得很。

      聊完技術(shù),得說說實(shí)際操作里的坑。

      好多人以為微調(diào)就是“搞完SFT就行”,把RM和RLHF當(dāng)擺設(shè),結(jié)果模型能力強(qiáng)但老出問題,比如生成違規(guī)內(nèi)容,這就是沒做“價(jià)值對齊”。

      還有些中小企業(yè)跟風(fēng)搞全量微調(diào),明明算力不夠,非要硬上,最后成本超支還沒效果,其實(shí)選PEFT更劃算。



      另外,微調(diào)不是一勞永逸的事,得定期更數(shù)據(jù),不然模型會(huì)“知識(shí)老化”。

      之前有個(gè)客服AI團(tuán)隊(duì),調(diào)完后半年沒更數(shù)據(jù),用戶問新出的產(chǎn)品,模型居然說“沒聽過”,這就是沒做持續(xù)迭代的鍋。

      不同行業(yè)的微調(diào)案例也能給咱們不少啟發(fā),招行做信貸審核AI的時(shí)候,SFT用了5年的真實(shí)信貸案例,RM專門盯著“風(fēng)險(xiǎn)識(shí)別”,RLHF優(yōu)化“回答合規(guī)性”,最后審核效率提了不少,誤判率也降了。



      協(xié)和醫(yī)院做病歷分析AI時(shí),選了PEFT技術(shù),凍住大部分參數(shù),只練“醫(yī)學(xué)術(shù)語理解”的插件,既保留了模型的通用醫(yī)學(xué)知識(shí),又能精準(zhǔn)分析專科病歷。

      新東方的作文批改AI更有意思,SFT用了10萬篇學(xué)生作文和教師評(píng)語,RM盯著“糾錯(cuò)準(zhǔn)確性”,RLHF則專門優(yōu)化“評(píng)語友好度”,最后學(xué)生用著舒服,老師也省了不少勁。

      微調(diào)的未來:不是只有大企業(yè)能玩

      現(xiàn)在好多人覺得微調(diào)是大企業(yè)的“專利”,其實(shí)不是,未來微調(diào)會(huì)越來越“平民化”。



      第一個(gè)趨勢是多模態(tài)融合,以后不只是文本微調(diào),還得結(jié)合圖片、語音。

      比如教育AI,以后既要能改作文,還得能看學(xué)生的手寫解題步驟,甚至能聽學(xué)生的口語發(fā)音并糾錯(cuò),這就需要多模態(tài)微調(diào)。

      不過這也會(huì)帶來新挑戰(zhàn),比如怎么讓模型同時(shí)學(xué)好文本和圖片知識(shí),還不互相干擾,這是行業(yè)接下來要解決的問題。

      第二個(gè)趨勢是自動(dòng)化工具普及,以后小企業(yè)不用懂代碼,也能做微調(diào)。



      比如“文心千帆”出的“一鍵微調(diào)”功能,用戶只要上傳數(shù)據(jù),點(diǎn)幾下按鈕就能完成全流程。

      我跟做AI工具的朋友聊,他們說2025年左右,中小企業(yè)做微調(diào)的門檻會(huì)降很多,可能花幾千塊、幾天時(shí)間就能搞定。

      這對想借AI落地的小企業(yè)來說,絕對是好消息,以后不用再羨慕大企業(yè)有專屬AI了。

      其實(shí)說到底,微調(diào)不是單純的技術(shù)活,而是“系統(tǒng)活”,得把SFT的知識(shí)注入、RM的價(jià)值建模、RLHF的行為對齊串起來,還得根據(jù)自己的業(yè)務(wù)需求和預(yù)算選策略。



      它的本質(zhì),就是把“大學(xué)生水平”的通用模型,教成“能勝任某行工作”的行業(yè)專家。

      以后誰能把微調(diào)玩明白,誰就能在AI落地里占先機(jī),畢竟AI再厲害,不能解決具體業(yè)務(wù)問題,也只是個(gè)“花架子”。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      曾狂言臺(tái)積電領(lǐng)先大陸三十年的張忠謀現(xiàn)在厚臉皮求大陸給稀土

      曾狂言臺(tái)積電領(lǐng)先大陸三十年的張忠謀現(xiàn)在厚臉皮求大陸給稀土

      荊楚寰宇文樞
      2025-11-07 21:52:53
      吳石案中有個(gè)關(guān)鍵人物被忽略,若不是因?yàn)樗蠹铱赡芏紩?huì)沒事

      吳石案中有個(gè)關(guān)鍵人物被忽略,若不是因?yàn)樗蠹铱赡芏紩?huì)沒事

      博覽歷史
      2025-11-06 20:56:28
      一覺醒來,估計(jì)全國人民都知道了32歲的楊紫!

      一覺醒來,估計(jì)全國人民都知道了32歲的楊紫!

      動(dòng)物奇奇怪怪
      2025-10-31 02:51:26
      銷量撕下某國產(chǎn)手機(jī)遮羞布,趕超?給iPhone17提鞋都不配!

      銷量撕下某國產(chǎn)手機(jī)遮羞布,趕超?給iPhone17提鞋都不配!

      柏銘銳談
      2025-11-05 23:29:16
      被特朗普逼到墻角!泰國國王動(dòng)身訪華,柬埔寨把黃金大批運(yùn)來深圳

      被特朗普逼到墻角!泰國國王動(dòng)身訪華,柬埔寨把黃金大批運(yùn)來深圳

      軍機(jī)Talk
      2025-11-07 14:41:05
      外媒聚焦中國“最強(qiáng)航母”:看得清清楚楚,很沖擊了

      外媒聚焦中國“最強(qiáng)航母”:看得清清楚楚,很沖擊了

      觀察者網(wǎng)
      2025-11-07 19:55:08
      孫藝珍的面相也變了!剪短發(fā)吃零食!童心爆棚

      孫藝珍的面相也變了!剪短發(fā)吃零食!童心爆棚

      蒂蒂茱家
      2025-11-07 13:22:30
      iPhoneAir再見了,新iPhone確定升級(jí)

      iPhoneAir再見了,新iPhone確定升級(jí)

      3C毒物
      2025-11-07 00:09:18
      冬天,為什么勸中年女人別穿“羽絨服”出門?看這幾組對比就懂了

      冬天,為什么勸中年女人別穿“羽絨服”出門?看這幾組對比就懂了

      時(shí)尚穿搭生活館
      2025-11-05 14:52:01
      立冬后才發(fā)現(xiàn):“羽絨服”最受歡迎,配長褲就行,保暖舒適又時(shí)尚

      立冬后才發(fā)現(xiàn):“羽絨服”最受歡迎,配長褲就行,保暖舒適又時(shí)尚

      八分搭配
      2025-11-08 00:26:06
      廣東男籃全運(yùn)會(huì)奪冠啟示錄,必須做三大改變破局

      廣東男籃全運(yùn)會(huì)奪冠啟示錄,必須做三大改變破局

      民哥臺(tái)球解說
      2025-11-07 15:43:58
      史曉燕揭秘李春平遺產(chǎn):沒有268億,每年只拿1500萬,癡呆是遺傳

      史曉燕揭秘李春平遺產(chǎn):沒有268億,每年只拿1500萬,癡呆是遺傳

      不八卦掌門人
      2025-11-06 16:12:28
      馬刺兩連敗的背后:文班亞馬或提前退出MVP爭奪

      馬刺兩連敗的背后:文班亞馬或提前退出MVP爭奪

      姜大叔侃球
      2025-11-07 12:25:13
      女生穿成這樣去健身房,真的合適嗎??

      女生穿成這樣去健身房,真的合適嗎??

      健身廚屋
      2025-10-20 12:22:34
      潛伏我國30年美國辣醬巨頭,年賺300億打敗老干媽,被誤認(rèn)是國貨

      潛伏我國30年美國辣醬巨頭,年賺300億打敗老干媽,被誤認(rèn)是國貨

      素衣讀史
      2024-12-19 14:16:46
      確認(rèn)了!今天東莞正式進(jìn)入!新冷空氣已“發(fā)貨”!

      確認(rèn)了!今天東莞正式進(jìn)入!新冷空氣已“發(fā)貨”!

      東莞好生活
      2025-11-07 11:57:52
      荒野求生第30天,“奪冠熱門”河南退伍特種兵退賽!此前已瘦25斤,身體達(dá)缺鹽極限,將出去找工作

      荒野求生第30天,“奪冠熱門”河南退伍特種兵退賽!此前已瘦25斤,身體達(dá)缺鹽極限,將出去找工作

      極目新聞
      2025-11-07 10:14:46
      林生斌現(xiàn)狀曝光:定居澳洲富人區(qū),一家幸福,現(xiàn)任是前公司員工

      林生斌現(xiàn)狀曝光:定居澳洲富人區(qū),一家幸福,現(xiàn)任是前公司員工

      林輕吟
      2025-09-21 09:21:51
      深夜美股集體下挫,小馬智行、文遠(yuǎn)知行跌超9%,加密貨幣超24萬人爆倉

      深夜美股集體下挫,小馬智行、文遠(yuǎn)知行跌超9%,加密貨幣超24萬人爆倉

      21世紀(jì)經(jīng)濟(jì)報(bào)道
      2025-11-07 23:43:51
      女子穿運(yùn)動(dòng)內(nèi)衣跑步胸前染色,飛比特致歉,客服:要注意運(yùn)動(dòng)場景和衣服材質(zhì)的搭配

      女子穿運(yùn)動(dòng)內(nèi)衣跑步胸前染色,飛比特致歉,客服:要注意運(yùn)動(dòng)場景和衣服材質(zhì)的搭配

      極目新聞
      2025-11-06 17:25:10
      2025-11-08 01:07:00
      窺史
      窺史
      歷史是人類智慧的結(jié)晶,它包含了無數(shù)的寶藏和啟示。
      2935文章數(shù) 164關(guān)注度
      往期回顧 全部

      科技要聞

      75%贊成!特斯拉股東同意馬斯克天價(jià)薪酬

      頭條要聞

      家長稱男嬰被兩個(gè)不滿12周歲女孩害死:拿她們沒辦法

      頭條要聞

      家長稱男嬰被兩個(gè)不滿12周歲女孩害死:拿她們沒辦法

      體育要聞

      是天才更是強(qiáng)者,18歲的全紅嬋邁過三道坎

      娛樂要聞

      王家衛(wèi)的“看人下菜碟”?

      財(cái)經(jīng)要聞

      荷蘭政府:安世中國將很快恢復(fù)芯片供應(yīng)

      汽車要聞

      美式豪華就是舒適省心 林肯航海家場地試駕

      態(tài)度原創(chuàng)

      數(shù)碼
      手機(jī)
      游戲
      旅游
      藝術(shù)

      數(shù)碼要聞

      微軟首款硬件Z - 80 SoftCard:80年代的意外“吸金王”

      手機(jī)要聞

      小米17 Ultra:潛望鏡頭已清晰!小米17系列:銷量已突破200萬!

      海的那邊是什么?我會(huì)自己去看"/> 主站 商城 論壇 自運(yùn)營 登錄 注冊 海的那邊是什么?我會(huì)自己去看 廉頗 2025-11-07 返回專欄首頁 作者:...

      旅游要聞

      四川這座村落為何吸引全球目光?探訪“最佳旅游鄉(xiāng)村”

      藝術(shù)要聞

      地球的巨眼?亞洲第一銅礦藏190層深淵,能吞下59個(gè)西湖!

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 久久99精品久久久久久| 国产午夜精品福利免费不| 色综合久久中文字幕综合网| 国产麻豆精品av在线观看| 黑人大荫道bbwbbb高潮潮喷| 亚洲天堂成人黄色在线播放| 日本午夜精品一区二区三区电影| 国产美女久久久亚洲综合| 亚洲日产韩国一二三四区| 亚洲gv天堂无码男同在线观看 | 新建县| 精品国产一区二区三区性色| 国产精品二区中文字幕| 熟女熟妇伦av网站| 欧美成年黄网站色视频| 国产极品丝尤物在线观看| 中文字幕午夜福利片午夜福利片97| 一区二区三区精品偷拍| 一日本道伊人久久综合影| 天天干天天色综合网| 日韩乱码人妻无码中文字幕视频 | 精品亚洲国产成人av在线| 又大又硬又爽免费视频| 欧美性猛交xxxx乱大交丰满| 国产精品老熟女免费视频| 亚洲最大有声小说AV网| 69天堂人成无码免费视频| 国产亚洲欧洲av综合一区二区三区 | 国产性三级高清在线观看| 4hu44四虎www在线影院麻豆| 免费人成在线观看网站| 无码国产欧美一区二区三区不卡| 亚洲中文字幕日韩精品| аⅴ天堂中文在线网| 一区二区和激情视频| 亚洲成人av综合一区| 国精品无码一区二区三区在线看| 在线 国产 欧美 专区| 国产精品大全中文字幕| 成人午夜视频一区二区无码| 久久99国产精一区二区三区!|