<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      ARGRE框架實現高效LLM解毒:自回歸獎勵引導,安全對齊更快、更準

      0
      分享至



      作者為北京航空航天大學的肖宜松,劉艾杉,應宗浩,劉祥龍,新加坡國立大學的梁思源,新加坡南洋理工大學的陶大程。本文已被 NeurIPS 2025 錄用。

      LLM 已在智能創作、企業服務等領域廣泛應用,但其內容安全問題仍是落地過程中的關鍵挑戰。仇恨、歧視、威脅性言論等潛在風險,使得 LLM 的安全部署與可信使用面臨困難,而現有的內容過濾或對齊方案在效果、效率與成本之間往往難以兼顧。

      近期,來自北航等機構的研究提出了一種新的解決思路:自回歸獎勵引導表征編輯(ARGRE)框架。該方法首次在 LLM 的潛在表征空間中可視化了毒性從高到低的連續變化路徑,實現了在測試階段進行高效「解毒」。



      • 論文標題:Detoxifying Large Language Models via Autoregressive Reward Guided Representation Editing
      • 論文地址:https://arxiv.org/abs/2510.01243

      實驗結果顯示,ARGRE 在降低模型毒性(62.21%)、縮短推理時間(47.58%)的同時,幾乎不影響模型原有能力,為提升大模型內容安全提供了新的方向。

      在 8 個主流 LLM(參數覆蓋 355M 的 GPT-2 Medium 到 30B 的 LLaMA-30B)上的測試顯示,其性能全面碾壓當前所有基線方法,為 LLM 安全落地提供了「又快又準又輕」的全新方法。



      圖1 ARGRE 框架圖

      研究背景

      當前大語言模型解毒技術雖已形成兩大主流路徑,但均存在難以突破的核心瓶頸,嚴重制約其在實際場景中的落地效果:

      其一,以直接偏好優化(DPO)為代表的訓練時解毒方法,雖能通過偏好數據微調模型參數實現毒性抑制,卻高度依賴大規模高質量標注數據與巨額算力支撐,在低數據、低算力的資源受限場景中難以適用;

      其二,以表征編輯為代表的測試時解毒方法,無需修改模型參數,在推理階段實施靜態或動態干預。盡管具備靈活輕量的優勢,但這類方法普遍未能充分探索大模型生成過程中毒性輸出與非毒性輸出之間的過渡空間,僅依賴稀疏的毒性標注數據無法捕捉到精細修復信號,導致干預精度不足,最終解毒效果遠未達最優。

      ARGRE 針對上述瓶頸,提出在潛在表征空間中顯式建模毒性轉變軌跡,形成可學習的“導航系統”。該系統將稀疏標注轉化為密集信號,指導自回歸獎勵模型學習更穩定、精確的干預策略,從而在推理階段高效降低毒性輸出。

      方法概述

      ARGRE 的總體流程包括三部分:毒性軌跡探索、獎勵模型學習與自適應表征編輯。其核心思想是通過表征插值刻畫毒性連續變化,并以自回歸獎勵信號引導模型在推理階段進行動態修正。

      毒性軌跡探索

      依據線性表征假設,毒性等語義概念在大語言模型的表征空間中以線性方向編碼。



      這些軌跡能將原本稀疏的毒性注釋,轉化為連續的細粒度毒性表征變化信號,形成密集的監督信息,最終讓后續學習的自回歸獎勵模型具備更穩定、準確的編輯指導能力。

      自回歸獎勵模型

      軌跡級獎勵模型基于完整軌跡訓練,僅在結尾處分配最終獎勵,導致生成過程中編輯信號不夠精準。





      自適應表征編輯

      依托自回歸獎勵模型,推理階段通過引導每個令牌表征最大化預期獎勵,實現大語言模型輸出毒性的降低。



      相較于現有方法依賴啟發式靜態干預或繁瑣的梯度動態干預,該策略在效果與效率上優勢顯著:定向引導可降低表征陷入局部最優的風險,而有限的梯度迭代則確保自回歸生成的額外開銷微乎其微。

      實驗評估

      在實驗評估環節,為驗證解毒效果,研究團隊以 RealToxicityPrompts 的挑戰子集為測試基準。

      通過向大語言模型輸入該子集的提示以觸發潛在毒性輸出,再借助 Detoxify 工具對生成結果進行毒性評分(分數越高毒性越強),同時以生成文本的困惑度衡量語言流暢性保留情況。

      評估覆蓋 8 個主流 LLM,參數規模跨度從 355M(如 GPT-2 Medium)到 30B(如 LLaMA-30B)。

      有效性評估中,ARGRE 展現出卓越的解毒性能:不僅顯著超越各類基線方法,更在 8 個主流大語言模型上實現了高效毒性抑制,相比原始模型毒性降低率高達 62.21%。即便僅保留初始定向引導步驟、去除迭代優化的簡化版本,也能實現 59.63% 的毒性降低。

      同時,ARGRE 在不同參數規模模型中均表現穩定,從 355M 到 30B 參數的大模型均能有效適配,且僅造成最小程度的流暢性損耗,成功平衡了毒性抑制效果與模型核心生成能力。



      效率表現上,ARGRE 同樣展現出顯著優勢。以 LLaMA-30B 為測試對象,在生成 128 個 token 的任務中,ARGRE 能有效降低計算開銷,相比當前表現最佳的基線方法,推理時間減少 47.58%。

      ARGRE 的效率優勢源于兩點核心設計:一方面,其自回歸獎勵模型采用輕量兩層 MLP 結構,無需額外復雜模塊,避免引入多余計算負擔;另一方面,自適應兩步編輯中的梯度優化步驟僅需少量迭代,進一步控制了推理階段的開銷。

      而實現可比解毒表現的簡化版本,推理速度與原始模型近乎持平,表明定向引導步驟的開銷極小。



      理想的大語言模型解毒方法,需在降低毒性的同時完整保留模型現有核心能力,ARGRE 較好的滿足了這一目標。在語言性能保留層面,以 WikiText-2 數據集的困惑度為衡量指標,ARGRE 僅導致困惑度平均上升 0.52,這一微小增幅意味著其對語言生成能力的影響極低,且該增幅在所有測試時基線方法中處于最低水平。

      在零樣本任務能力層面,ARGRE 能夠穩定保留原始模型的準確率,未出現能力退化;而其他測試時基線方法在這一維度均表現出不同程度的性能下降。



      總結

      本文提出的 ARGRE,是一種能顯式建模 LLM 表征空間中毒性轉變的新型測試時解毒方法。其核心突破在于通過將稀疏的毒性標注轉化為密集訓練信號,高效學習出可提供穩定、精準指導的自回歸獎勵模型,為后續表征編輯提供關鍵支撐。

      在覆蓋 355M 至 30B 參數的 8 種主流 LLM 上的廣泛評估顯示,ARGRE 不僅在解毒性能上全面優于基線方法,推理效率也顯著高于其他主流基線,更能以近乎零損耗的方式保留模型原有的核心能力。

      ARGRE 當前存在兩點局限:其一,作為白盒方法,它需獲取 LLM 的內部表征才能實施干預,限制了其在無法接觸模型內部信息場景中的應用范圍;其二,當前對毒性轉變的探索僅圍繞第一主成分方向展開,未來工作將嘗試探索更多樣化的方向,以便更好地捕捉毒性轉變的細微特征。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      弘一法師:人生粗茶淡飯不要緊,朋友散場沒關系

      弘一法師:人生粗茶淡飯不要緊,朋友散場沒關系

      杏花煙雨江南的碧園
      2025-11-06 10:05:03
      曝妻兒3人被發小殺害真相,飯桌聊黃金遭惦記,百日祭現反常一幕

      曝妻兒3人被發小殺害真相,飯桌聊黃金遭惦記,百日祭現反常一幕

      壹月情感
      2025-11-05 21:24:33
      為什么說“烏粉”往往值得深交?

      為什么說“烏粉”往往值得深交?

      史政先鋒
      2025-11-06 13:02:01
      李云迪再陷桃色風波,女主照片被扒疑似有兩人視頻流出

      李云迪再陷桃色風波,女主照片被扒疑似有兩人視頻流出

      挪威森林
      2025-11-02 12:56:16
      小鵬機器人走貓步被疑 “真人假扮”,何小鵬回應:感謝認可。

      小鵬機器人走貓步被疑 “真人假扮”,何小鵬回應:感謝認可。

      小南看車
      2025-11-06 10:27:46
      賣掉油車換電車,第一次上高速1100km,終于知道網上說的都是真的

      賣掉油車換電車,第一次上高速1100km,終于知道網上說的都是真的

      小李子體育
      2025-10-22 12:52:50
      國民黨主席位置坐穩,鄭麗文攤牌了:兩岸不回歸和平,其他是侈談

      國民黨主席位置坐穩,鄭麗文攤牌了:兩岸不回歸和平,其他是侈談

      原來仙女不講理
      2025-11-06 12:00:28
      羅氏蝦、基圍蝦都是“激素”泡大的?其實這3種蝦才是“問題蝦”

      羅氏蝦、基圍蝦都是“激素”泡大的?其實這3種蝦才是“問題蝦”

      健身狂人
      2025-11-02 07:59:00
      課本為何沒有田忌賽馬后續?愚蠢的勝利,讓他幾年后付出慘痛代價

      課本為何沒有田忌賽馬后續?愚蠢的勝利,讓他幾年后付出慘痛代價

      黃麗搞笑小能手
      2025-10-29 11:24:08
      中方沉默4天后發聲:特朗普警告,若對委內瑞拉動手,美國后果堪憂

      中方沉默4天后發聲:特朗普警告,若對委內瑞拉動手,美國后果堪憂

      今日美食分享
      2025-11-06 10:52:05
      黃仁勛“最直白表態”:中國這么做,將贏了美國

      黃仁勛“最直白表態”:中國這么做,將贏了美國

      觀察者網
      2025-11-06 08:23:17
      37歲景甜在安徽小鎮被偶遇,她打扮樸素,皮膚白皙 嬌俏可愛,好美

      37歲景甜在安徽小鎮被偶遇,她打扮樸素,皮膚白皙 嬌俏可愛,好美

      草莓解說體育
      2025-11-05 09:38:12
      凈利潤暴跌超70%!安徽前首富的百億夢碎,網友:老字號嗑不動了

      凈利潤暴跌超70%!安徽前首富的百億夢碎,網友:老字號嗑不動了

      品牌觀察官
      2025-11-05 19:33:12
      2100億,上海拆遷下一個目標,盯上城中村

      2100億,上海拆遷下一個目標,盯上城中村

      石辰搞笑日常
      2025-11-06 07:50:57
      被傳分手7個月,鹿晗演唱會后高調官宣,真相原來早有預兆

      被傳分手7個月,鹿晗演唱會后高調官宣,真相原來早有預兆

      麥芽是個小趴菜
      2025-11-06 08:26:56
      特斯拉一位大股東站出來了:給馬斯克1萬億美元薪酬,我們不同意

      特斯拉一位大股東站出來了:給馬斯克1萬億美元薪酬,我們不同意

      藍色海邊
      2025-11-05 14:34:20
      俄副外長:目前不具備組織俄美元首會晤的條件!澤連斯基喊話歐爾班:別阻撓烏克蘭“入歐”

      俄副外長:目前不具備組織俄美元首會晤的條件!澤連斯基喊話歐爾班:別阻撓烏克蘭“入歐”

      每日經濟新聞
      2025-11-05 20:28:10
      被謝賢養了12年,用青春換來2000萬的Coco,已經走上了另一條道路

      被謝賢養了12年,用青春換來2000萬的Coco,已經走上了另一條道路

      小小李娛
      2025-11-06 11:37:37
      何炅替謝娜求情復出!

      何炅替謝娜求情復出!

      八卦瘋叔
      2025-11-06 10:08:01
      英超前10輪與上賽季同期積分對比:阿森納、利物浦積分互換

      英超前10輪與上賽季同期積分對比:阿森納、利物浦積分互換

      懂球帝
      2025-11-06 00:05:53
      2025-11-06 13:39:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11657文章數 142499關注度
      往期回顧 全部

      科技要聞

      蘋果“認輸”!曝每年10億美元租用谷歌AI

      頭條要聞

      女星安吉麗娜朱莉訪烏 隨身保鏢被烏軍征兵處抓走服役

      頭條要聞

      女星安吉麗娜朱莉訪烏 隨身保鏢被烏軍征兵處抓走服役

      體育要聞

      送走兩位全明星,公牛成了東部第一

      娛樂要聞

      白百何好友揭露爭獎細節

      財經要聞

      特朗普關稅遭美國高院大法官輪番質疑

      汽車要聞

      方向盤?不存在的 特斯拉 Cybercab亞太首秀

      態度原創

      本地
      房產
      教育
      藝術
      旅游

      本地新聞

      這屆干飯人,已經把博物館吃成了食堂

      房產要聞

      中旅·三亞藍灣,以一座城市會客廳回應世界的濱海想象

      教育要聞

      爸媽變“同桌”!南京一中課堂迎來最特別的“插班生”!

      藝術要聞

      “塑料凳”大廈?西安新地標213米造型引熱議!

      旅游要聞

      安徽黃山:峰林盡染秋意濃

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 青草精品国产福利在线视频| 欧洲精品一区二区三区久久 | 动漫av网站免费观看| 无套内谢少妇高清毛片| 九九热在线精品免费视频| 亚洲国产高清av网站| 日韩人妻无码精品久久| 国产精品一二二区视在线| 久久婷婷五月综合色99啪ak| 少妇办公室好紧好爽再浪一点| 亚洲Av综合日韩精品久久久| 国产日产精品系列| 免费看成人欧美片爱潮app| 中文字幕亚洲人妻一区| 日韩在线视频线观看一区| 97在线碰| 婷婷综合亚洲| 日韩av一区二区高清不卡| 婷婷开心色四房播播| 起碰免费公开97在线视频| 老司机精品成人无码AV| 成年女人碰碰碰视频播放| 午夜福利视频| 日本道播放一区二区三区| 人妻中文字幕精品系列| 熟女少妇精品一区二区| 九九热在线观看精品视频| 色欲国产精品一区成人精品| 国产漂亮白嫩美女在线观看| 亚洲区一区二区激情文学| 欧美人与禽2o2o性论交| 亚洲日韩av在线观看| 国产亚洲一区二区三区成人| 免费无码高潮流白浆视频| 国产人妻丰满熟妇嗷嗷叫| 乱人伦人妻中文字幕无码久久网| 日本区二区三区不卡视频| 国产成人精品三级麻豆| 无码av中文字幕久久专区| 亚洲成人av在线高清| 全黄h全肉边做边吃奶视频|