![]()
作者為北京航空航天大學的肖宜松,劉艾杉,應宗浩,劉祥龍,新加坡國立大學的梁思源,新加坡南洋理工大學的陶大程。本文已被 NeurIPS 2025 錄用。
LLM 已在智能創作、企業服務等領域廣泛應用,但其內容安全問題仍是落地過程中的關鍵挑戰。仇恨、歧視、威脅性言論等潛在風險,使得 LLM 的安全部署與可信使用面臨困難,而現有的內容過濾或對齊方案在效果、效率與成本之間往往難以兼顧。
近期,來自北航等機構的研究提出了一種新的解決思路:自回歸獎勵引導表征編輯(ARGRE)框架。該方法首次在 LLM 的潛在表征空間中可視化了毒性從高到低的連續變化路徑,實現了在測試階段進行高效「解毒」。
![]()
- 論文標題:Detoxifying Large Language Models via Autoregressive Reward Guided Representation Editing
- 論文地址:https://arxiv.org/abs/2510.01243
實驗結果顯示,ARGRE 在降低模型毒性(62.21%)、縮短推理時間(47.58%)的同時,幾乎不影響模型原有能力,為提升大模型內容安全提供了新的方向。
在 8 個主流 LLM(參數覆蓋 355M 的 GPT-2 Medium 到 30B 的 LLaMA-30B)上的測試顯示,其性能全面碾壓當前所有基線方法,為 LLM 安全落地提供了「又快又準又輕」的全新方法。
![]()
圖1 ARGRE 框架圖
研究背景
當前大語言模型解毒技術雖已形成兩大主流路徑,但均存在難以突破的核心瓶頸,嚴重制約其在實際場景中的落地效果:
其一,以直接偏好優化(DPO)為代表的訓練時解毒方法,雖能通過偏好數據微調模型參數實現毒性抑制,卻高度依賴大規模高質量標注數據與巨額算力支撐,在低數據、低算力的資源受限場景中難以適用;
其二,以表征編輯為代表的測試時解毒方法,無需修改模型參數,在推理階段實施靜態或動態干預。盡管具備靈活輕量的優勢,但這類方法普遍未能充分探索大模型生成過程中毒性輸出與非毒性輸出之間的過渡空間,僅依賴稀疏的毒性標注數據無法捕捉到精細修復信號,導致干預精度不足,最終解毒效果遠未達最優。
ARGRE 針對上述瓶頸,提出在潛在表征空間中顯式建模毒性轉變軌跡,形成可學習的“導航系統”。該系統將稀疏標注轉化為密集信號,指導自回歸獎勵模型學習更穩定、精確的干預策略,從而在推理階段高效降低毒性輸出。
方法概述
ARGRE 的總體流程包括三部分:毒性軌跡探索、獎勵模型學習與自適應表征編輯。其核心思想是通過表征插值刻畫毒性連續變化,并以自回歸獎勵信號引導模型在推理階段進行動態修正。
毒性軌跡探索
依據線性表征假設,毒性等語義概念在大語言模型的表征空間中以線性方向編碼。
![]()
這些軌跡能將原本稀疏的毒性注釋,轉化為連續的細粒度毒性表征變化信號,形成密集的監督信息,最終讓后續學習的自回歸獎勵模型具備更穩定、準確的編輯指導能力。
自回歸獎勵模型
軌跡級獎勵模型基于完整軌跡訓練,僅在結尾處分配最終獎勵,導致生成過程中編輯信號不夠精準。
![]()
![]()
自適應表征編輯
依托自回歸獎勵模型,推理階段通過引導每個令牌表征最大化預期獎勵,實現大語言模型輸出毒性的降低。
![]()
相較于現有方法依賴啟發式靜態干預或繁瑣的梯度動態干預,該策略在效果與效率上優勢顯著:定向引導可降低表征陷入局部最優的風險,而有限的梯度迭代則確保自回歸生成的額外開銷微乎其微。
實驗評估
在實驗評估環節,為驗證解毒效果,研究團隊以 RealToxicityPrompts 的挑戰子集為測試基準。
通過向大語言模型輸入該子集的提示以觸發潛在毒性輸出,再借助 Detoxify 工具對生成結果進行毒性評分(分數越高毒性越強),同時以生成文本的困惑度衡量語言流暢性保留情況。
評估覆蓋 8 個主流 LLM,參數規模跨度從 355M(如 GPT-2 Medium)到 30B(如 LLaMA-30B)。
有效性評估中,ARGRE 展現出卓越的解毒性能:不僅顯著超越各類基線方法,更在 8 個主流大語言模型上實現了高效毒性抑制,相比原始模型毒性降低率高達 62.21%。即便僅保留初始定向引導步驟、去除迭代優化的簡化版本,也能實現 59.63% 的毒性降低。
同時,ARGRE 在不同參數規模模型中均表現穩定,從 355M 到 30B 參數的大模型均能有效適配,且僅造成最小程度的流暢性損耗,成功平衡了毒性抑制效果與模型核心生成能力。
![]()
效率表現上,ARGRE 同樣展現出顯著優勢。以 LLaMA-30B 為測試對象,在生成 128 個 token 的任務中,ARGRE 能有效降低計算開銷,相比當前表現最佳的基線方法,推理時間減少 47.58%。
ARGRE 的效率優勢源于兩點核心設計:一方面,其自回歸獎勵模型采用輕量兩層 MLP 結構,無需額外復雜模塊,避免引入多余計算負擔;另一方面,自適應兩步編輯中的梯度優化步驟僅需少量迭代,進一步控制了推理階段的開銷。
而實現可比解毒表現的簡化版本,推理速度與原始模型近乎持平,表明定向引導步驟的開銷極小。
![]()
理想的大語言模型解毒方法,需在降低毒性的同時完整保留模型現有核心能力,ARGRE 較好的滿足了這一目標。在語言性能保留層面,以 WikiText-2 數據集的困惑度為衡量指標,ARGRE 僅導致困惑度平均上升 0.52,這一微小增幅意味著其對語言生成能力的影響極低,且該增幅在所有測試時基線方法中處于最低水平。
在零樣本任務能力層面,ARGRE 能夠穩定保留原始模型的準確率,未出現能力退化;而其他測試時基線方法在這一維度均表現出不同程度的性能下降。
![]()
總結
本文提出的 ARGRE,是一種能顯式建模 LLM 表征空間中毒性轉變的新型測試時解毒方法。其核心突破在于通過將稀疏的毒性標注轉化為密集訓練信號,高效學習出可提供穩定、精準指導的自回歸獎勵模型,為后續表征編輯提供關鍵支撐。
在覆蓋 355M 至 30B 參數的 8 種主流 LLM 上的廣泛評估顯示,ARGRE 不僅在解毒性能上全面優于基線方法,推理效率也顯著高于其他主流基線,更能以近乎零損耗的方式保留模型原有的核心能力。
ARGRE 當前存在兩點局限:其一,作為白盒方法,它需獲取 LLM 的內部表征才能實施干預,限制了其在無法接觸模型內部信息場景中的應用范圍;其二,當前對毒性轉變的探索僅圍繞第一主成分方向展開,未來工作將嘗試探索更多樣化的方向,以便更好地捕捉毒性轉變的細微特征。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.