<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      大模型的遺忘也許是一個悖論?清華揭示Unlearning技術的兩難困境

      0
      分享至

      讓大語言模型忘掉某件事,看似簡單,實則比教它記住更難。Unlearning 技術旨在讓模型遺忘特定的敏感數據、隱私信息或高風險知識,以降低潛在安全隱患。然而,這一過程正受到質疑:要么是模型忘不干凈——被遺忘的內容往往能被輕量微調重新喚起;要么是模型忘得太狠——連帶丟失原本的通用能力,進而陷入災難性遺忘(Catastrophic Forgetting)。


      圖丨邱寒(來源:邱寒)

      這使得 Unlearning 的有效性在學術界引發了廣泛的爭論。更棘手的是,我們仍缺乏可解釋的手段去揭示其內部機理:模型究竟是如何遺忘的?在最新的研究中,清華大學邱寒副教授團隊提出了可解釋性框架 UnPact,通過量化 Unlearning 前后模型對提示語(prompt)中不同詞語的關注度,揭示了這項技術背后可能的悖論(如圖所示)——讓大語言模型忘記某件事,或許本身就是一種無法兼得的兩難,在“忘不干凈”與“忘得太狠”之間艱難平衡。


      (來源:arXiv)

      研究團隊測試了 6 類 Unlearning 方法、3 類模型以及 3 種 Benchmarks,旨在回答 3 個核心問題:

      1. 為什么 Unlearning 會起效?

      許多方法之所以能讓模型表現出遺忘效果,主要是因為它們干擾了模型對提示語中支撐正確答案的關鍵字的關注。

      2. 知識真的被忘掉了嗎?

      被遺忘的知識往往并未真正被抹除,只是模型暫時失去了對相關關鍵詞的關注。無需微調,只需在提示語中重新強調這些關鍵詞,被遺忘的知識便能再次被喚起。

      3. 為什么會出現災難性遺忘?

      這種現象源于在遺忘過程中對所有詞語的無差別懲罰——連那些維持模型通用能力的常用詞(如“what”“do”“get”等)也一并受到影響,從而導致整體性能坍塌。

      近日,相關論文以《理解大型語言模型的“遺忘”困境》(Understanding the Dilemma of Unlearning for Large Language Models)為題發表在預印本網站 arXiv[1]。清華大學博士生張清杰是第一作者,清華大學邱寒副教授擔任通訊作者,其他合作者來自螞蟻集團。





      UnPact 可解釋性框架:從提示語追蹤遺忘的發生

      要理解模型遺忘的本質,必須先構建一個針對 Unlearning 的可解釋性框架。傳統的可解釋性研究往往依賴模型權重或激活值分析,但在復雜的 LLM 架構中追蹤特定知識的流動困難重重,對閉源模型更是不可能。因此,研究團隊選擇了一個更具普適性的切入點:從模型能被直接觀察的輸入端——提示語出發,追蹤每個詞對輸出結果的影響。


      (來源:arXiv)

      研究團隊提出了可解釋性框架 UnPact(interpret Unlearning via Prompt Attribution and Contribution Tracking),通過計算每個提示詞在模型生成答案過程中的貢獻度,建立了一個可量化的“關注度足跡”(如圖所示)。這一機制允許研究者在 Unlearning 前后對比模型的關注模式,從而揭示出模型是如何遺忘的。

      在這一框架下,團隊進一步定義了所謂的關鍵詞(KeyTokens)——即對最終答案影響最大的那一組提示詞。值得注意的是,UnPact 不依賴任何模型內部參數,既可用于開源模型,也適用于封閉商用模型。



      為什么 Unlearning 會起效?

      通過對 Unlearning 前后的提示詞貢獻度進行對比,研究團隊發現:當模型忘記某個事實時,它失去了對提示語中關鍵詞的關注;相反,當模型仍然記得時,它依舊在關注同樣的一組關鍵詞。


      (來源:arXiv)

      如圖所示,當知識被遺忘時,Unlearning 后的模型不再關注“What”“rise”“Scotland”等 Unlearning 前模型的關鍵詞;相反,當知識被記住時,Unlearning 前后的模型關注同樣的關鍵詞“data”。研究團隊進一步統計了這種關鍵詞關注一致性的變化,如下表所示,當知識被遺忘時,模型的關注相似度平均下降了 20%。這意味著Unlearning 本質上是通過打亂模型對 prompt 的關注模式來實現的。


      (來源:arXiv)

      換言之,Unlearning 能起效,也許不是因為模型清空了記憶,而是因為它暫時模糊了那條通向記憶的路徑。



      知識真的被忘掉了嗎?

      如果 Unlearning 只是打亂了模型的關注模式,那么一個自然的問題是:這些被遺忘的知識是否還潛藏在模型中?

      雖然已有研究表明,輕量級的微調可以恢復被遺忘的內容,但這些方法都涉及對模型權重的再次修改,本質上已經換了一個模型。因此,研究團隊提出了一個更具說服力的問題:遺忘的知識能否在同一個 Unlearning 后的模型中、僅通過黑盒方式被重新喚醒?

      為此,研究人員設計了一種簡單卻具有啟發性的實驗策略——FocusOnKey。在這一方法中,他們不再調整模型參數,而是僅通過修改輸入提示語(prompt)來引導模型的關注。具體而言,研究人員會在提示語中重新強調那些在 Unlearning 前起關鍵作用的關鍵詞。令人驚訝的是,這樣微小的改動,就足以讓模型“憶起前塵”——重新給出原本被遺忘的正確答案。


      (來源:arXiv)

      如圖所示,Unlearning 后的模型忽視了關鍵詞“Northern”,因而輸出錯誤答案;而當提示語加上“Focus on How, Northern”時,模型重新聚焦于關鍵詞,并再次輸出正確答案。定量評估結果也支持這一結論(如下表所示),該方法在多個模型與任務上平均實現了 45.4% 的知識恢復率。


      (來源:arXiv)

      這說明,被遺忘的知識其實并未被抹除,它只是掩蓋在注意力的陰影里。



      為什么會出現災難性遺忘?

      如果說“忘不干凈”是 Unlearning 的一重困境,那么“忘得太狠”則是它的另一重困境——災難性遺忘。這一現象在早期研究中就已被多次觀察到,但其內在機制始終缺乏清晰的解釋。研究團隊利用 UnPact 框架,對這種現象的成因也進行了分析。


      (來源:arXiv)

      如圖所示,當災難性遺忘出現時,模型幾乎不再對任何提示詞產生關注,提示語中各詞的貢獻度同時坍塌,整段輸入被涂抹成一片低響應的“靜默區”。此時無論問題是什么,模型都無法關注有意義的信息,只能輸出模糊或無意義的字符。

      研究團隊指出,這一現象源于 Unlearning 過程中對所有詞語的無差別懲罰。以 Unlearning 方法 Gradient Ascent(GA)為例,模型在生成包含敏感信息的文本時,其中的每個 token 都會被施加“負損失”的反向優化。然而,這些文本中除了目標知識外,還包含大量普通功能詞(如“how”“do”“on”等)。當這些常見詞同樣被懲罰時,模型在遺忘特定內容的同時,也破壞了自身對語言結構的基本依賴,最終導致整體理解與生成能力的坍塌。



      Unlearning 的兩難困境:要么忘不干凈,要么忘得太狠

      綜合 UnPact 的分析結果,研究團隊指出 Unlearning 技術所面臨的悖論,當前方法似乎始終游走在兩種失敗之間:一方面,遺忘往往并不徹底——模型只是失去了對關鍵提示詞的關注,而非真正抹除了知識;另一方面,過于激進的遺忘又會波及通用詞匯和基礎語義結構,引發災難性遺忘,讓模型在去除風險的同時也失去理解能力。

      然而,理想的 Unlearning 應能同時實現兩點,既讓被遺忘的知識真正不可恢復,又保持模型的正常性能。為了評估現有方法距離這一目標還有多遠,研究團隊提出了兩項互補的衡量指標:用恢復率(Recovery Rate)衡量被遺忘知識被重新喚起的比例,用破壞率(Destructive Rate)衡量模型在回答中出現無關或無意義輸出的比例,以反映災難性遺忘的程度。


      (來源:arXiv)

      研究團隊為每種 Unlearning 方法記錄了訓練進度的多個階段(每 20% 保存一次檢查點),并在這些階段分別計算恢復率與破壞率。結果如圖所示,不同方法各有偏向,有的能有效壓低恢復率,卻以高破壞率為代價,有的保持了模型穩定性,卻難以真正忘記。研究團隊將這種局面稱為 Unlearning 的兩難困境:恢復率與破壞率幾乎呈此消彼長的關系——想要讓模型真正忘記,就必然要冒著讓它“變笨”的風險;而想保住能力,就必須接受“假遺忘”的存在。

      當將這些點連接成性能邊界時,一條清晰的結論浮現——當前主流的 Unlearning 方法距離可靠的遺忘仍存在一定差距。讓模型學會忘記,可能遠比讓它生成一段優美文本更難。

      參考資料:

      1.論文鏈接:https://arxiv.org/pdf/2509.24675

      2.項目網站:https://unpact.site

      運營/排版:何晨龍

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      再見,皇馬!1.5億“帝星”正式決定離隊!8000萬歐中衛“空降”

      再見,皇馬!1.5億“帝星”正式決定離隊!8000萬歐中衛“空降”

      頭狼追球
      2025-11-06 09:01:52
      大媽花50萬買基金,賬號忘了15年,孫子找回看到余額,全家愣住了

      大媽花50萬買基金,賬號忘了15年,孫子找回看到余額,全家愣住了

      黃家湖的憂傷
      2025-08-12 17:05:12
      場均40分11板9助,NBA歷史首人!要這么打,本賽季MVP懸念不大了

      場均40分11板9助,NBA歷史首人!要這么打,本賽季MVP懸念不大了

      老梁體育漫談
      2025-11-07 00:53:50
      震撼!美國貨機滿載14.4萬升燃油墜毀,巨大火球遮天蔽日,宛如核爆…

      震撼!美國貨機滿載14.4萬升燃油墜毀,巨大火球遮天蔽日,宛如核爆…

      英國那些事兒
      2025-11-06 23:04:38
      久功不克俄羅斯連撤兩員大將!西爾斯基:紅軍城守住了

      久功不克俄羅斯連撤兩員大將!西爾斯基:紅軍城守住了

      史政先鋒
      2025-11-03 11:54:13
      東風就緒!神舟二十號3人乘組準備回家,神二十二1人將飛行超1年

      東風就緒!神舟二十號3人乘組準備回家,神二十二1人將飛行超1年

      古事尋蹤記
      2025-11-06 10:11:15
      反轉來了!美高院三人倒戈,貝森特攤牌:沒了關稅整個國家會陪葬

      反轉來了!美高院三人倒戈,貝森特攤牌:沒了關稅整個國家會陪葬

      軍機Talk
      2025-11-06 11:44:45
      四川廣元辟謠“某餐飲店老板患艾滋病仍經營”:該店14名從業人員均未感染HIV

      四川廣元辟謠“某餐飲店老板患艾滋病仍經營”:該店14名從業人員均未感染HIV

      極目新聞
      2025-11-06 17:57:10
      震驚:歐冠最佳射手不是姆巴佩哈蘭德和凱恩,居然是他

      震驚:歐冠最佳射手不是姆巴佩哈蘭德和凱恩,居然是他

      姜大叔侃球
      2025-11-06 19:40:35
      免稅店政策“上新” 一組海報帶你劃重點

      免稅店政策“上新” 一組海報帶你劃重點

      人民網
      2025-11-06 11:26:23
      150億造了個“門”?珠海超級項目爛尾,網友:史上最牛大門!

      150億造了個“門”?珠海超級項目爛尾,網友:史上最牛大門!

      GA環球建筑
      2025-11-06 15:56:04
      太空碎片威脅升級,神舟二十號飛船遭撞擊,專家:不排除形成災難

      太空碎片威脅升級,神舟二十號飛船遭撞擊,專家:不排除形成災難

      一個有靈魂的作者
      2025-11-06 09:00:47
      國務院批復同意《成渝地區雙城經濟圈國土空間規劃(2021—2035年)》

      國務院批復同意《成渝地區雙城經濟圈國土空間規劃(2021—2035年)》

      界面新聞
      2025-11-06 17:07:54
      張韶涵演唱會疑拉稀!裙子有黃色污漬,前排聞臭味,助理攙扶離場

      張韶涵演唱會疑拉稀!裙子有黃色污漬,前排聞臭味,助理攙扶離場

      八星人
      2025-11-06 11:51:17
      副院長出軌眼科主任后續!女方長得很漂亮,衛健委通報:基本屬實

      副院長出軌眼科主任后續!女方長得很漂亮,衛健委通報:基本屬實

      奇思妙想草葉君
      2025-11-06 17:20:01
      98年他花5萬買下上海弄堂破閣樓,鄰居都笑他癡,20年后全都閉嘴了

      98年他花5萬買下上海弄堂破閣樓,鄰居都笑他癡,20年后全都閉嘴了

      溫情郵局
      2025-10-21 11:41:22
      俄外長拉夫羅夫缺席俄羅斯內部會議,成為美俄峰會失敗的罪魁禍首

      俄外長拉夫羅夫缺席俄羅斯內部會議,成為美俄峰會失敗的罪魁禍首

      山河路口
      2025-11-06 23:02:10
      X上最近很火的高跟鞋鉤住絲襪,不出意外又被玩壞了

      X上最近很火的高跟鞋鉤住絲襪,不出意外又被玩壞了

      BB姬
      2025-11-06 23:24:20
      隨著陳芋汐奪冠,全紅嬋第5!誕生了兩個不可思議和三個不爭事實

      隨著陳芋汐奪冠,全紅嬋第5!誕生了兩個不可思議和三個不爭事實

      凡人說體育
      2025-11-06 20:17:26
      茍如虎跨省履新上海市楊浦區副區長

      茍如虎跨省履新上海市楊浦區副區長

      魯中晨報
      2025-11-06 07:11:04
      2025-11-07 04:47:00
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      15827文章數 514269關注度
      往期回顧 全部

      科技要聞

      小鵬機器人里藏真人?何小鵬發一鏡到底視頻

      頭條要聞

      美參議員提議:政府不“開門”國會議員就停薪

      頭條要聞

      美參議員提議:政府不“開門”國會議員就停薪

      體育要聞

      送走兩位全明星,公牛成了東部第一

      娛樂要聞

      “黑料纏身”的白百何 誰給她的勇氣?

      財經要聞

      南銀法巴加速發展背后:資金饑渴癥待解

      汽車要聞

      是我眼花了么?怎么大猩猩都來參加新車發布了?

      態度原創

      親子
      時尚
      藝術
      家居
      游戲

      親子要聞

      讓寶寶少咳嗽、讓孩子晚近視、為罕見病早行動 進博展商交出兒童健康民生答卷

      大衣別這么穿,顯黑又顯胖!

      藝術要聞

      驚人!一幅畫拍出3.45億,竟然他早已去世62年!真相令人震驚!

      家居要聞

      別樣府院 暢享詩意生活

      珍惜PS4會免!明年將大幅減少數量 只偶爾提供給PS+

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 视频一区视频二区中文字幕| 国产亚洲精品AA片在线播放天| 色成人亚洲| 又色又爽又黄的视频网站| 免费国产精品黄色一区二区| 国产亚洲视频免费播放| 国产午夜一区二区在线观看 | 熟女精品视频一区二区三区| 日韩人妻系列无码专区| 国产精品多p对白交换绿帽| 国产精品高清视亚洲乱码| 九九热精彩视频在线免费| 国产欧美日韩精品丝袜高跟鞋| 成人区精品一区二区不卡| аⅴ天堂中文在线网| 亚洲香蕉伊综合在人在线| 新久久国产色av免费看| 欧美牲交a免费| 欧美高清freexxxx性| 衡阳县| 久热这里只有精品在线观看| 国产suv精品一区二区四| 日本久久99成人网站| 国产精品亚洲av三区色| 亚洲AV无码午夜嘿嘿嘿| 亚洲国产综合精品 在线 一区| 看亚洲黄色不在线网占| 2020国产成人精品视频| 国产精品不卡一区二区在线| 久久视频这里只精品| 麻豆麻豆麻豆麻豆麻豆麻豆| 在线中文字幕国产一区| 贵港市| 日韩精品久久久肉伦网站| 高潮videossex潮喷| 亚洲人成网站77777在线观看| 久久亚洲欧美日本精品| 国产久免费热视频在线观看| 国产精品免费中文字幕| 国产av丝袜熟女一二三| 三级国产在线观看|