<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      AI自己給自己當網管,實現安全“頓悟時刻”,風險率直降9.6%

      0
      分享至

      SafeKey團隊 投稿
      量子位 | 公眾號 QbitAI

      大型推理模型(LRMs)在解決復雜任務時展現出的強大能力令人驚嘆,但其背后隱藏的安全風險不容忽視。

      盡管學術界已嘗試通過監督微調(SFT)有效地提升模型安全,但下圖的測試結果所示,監督微調在面對訓練數據領域外的層出不窮的“越獄”攻擊時,往往顯得捉襟見肘,泛化能力有限。

      同時,之前的工作沒有對大型推理模型的安全思考做深入的分析,以進行針對性的提升。



      來自加州大學圣克魯茲分校,加州大學伯克利分校,思科研究和耶魯大學的的研究團隊提出了創新的SafeKey框架,成功在不影響模型核心能力的前提下,顯著增強了其安全穩健性。



      發現:大模型信息“越獄”的兩大核心

      SafeKey團隊在探究模型為何會“越獄”成功時,獲得了兩大核心發現:

      1.“關鍵句”現象(The “Key Sentence”)

      如下圖所示,推理模型在回答問題時,普遍會先進行一段對用戶查詢的理解與重述。

      而緊隨其后的第一個句子,往往直接決定了整個回答的“安全調性”。

      研究團隊將其命名為“關鍵句”(Key Sentence):一個安全的“頓悟時刻”(Aha-moment)能否在此時被觸發,是模型走向安全回答還是危險回答的分水嶺。



      2.“沉睡的安全信號”(The Dormant Safety Signal)

      另外,對于大量“越獄”成功的案例,模型在生成“關鍵句”之前,其對查詢的理解和復述已經明確暴露了查詢的惡意

      這意味著,模型內部的隱藏狀態在早期階段就已攜帶了強烈的安全特征信號。

      但是在回答查詢的過程中,這個寶貴的安全信號卻陷入了“沉睡”,未能在后續生成“關鍵句”的過程中被充分利用,導致了最終的安全防線崩潰。

      SafeKey:雙管齊下,喚醒模型的內在安全頓悟

      基于上述發現,SafeKey框架應運而生——

      它不再滿足于簡單的“對錯”教導,而是通過兩大創新優化目標,精準地強化模型在“關鍵句”生成時的“安全頓悟時刻”。

      雙通路安全頭(Dual-Path Safety Head):提前放大安全信號

      如下圖所示,為了強化模型內部的安全信號,研究團隊設計了“雙通路安全頭”。在訓練階段,它會并行地監督兩段關鍵內容的隱藏狀態:



      • a.“關鍵句”之前的所有內容。
      • b.模型對原始查詢的理解與復述過程。

      這種設計通過監督預測頭對這兩個關鍵階段的隱藏狀態進行安全判別,迫使模型在生成“關鍵句”前放大隱藏狀態內的安全信號,為后續成功觸發“安全頓悟”做好了充分鋪墊。

      查詢遮蔽建模(Query-Mask Modeling):強迫模型“聽自己的”

      如下圖所示,為了促使模型在決策時更加依賴自己內在的安全判斷,而非被“越獄”指令牽著鼻子走,SafeKey團隊提出了“查詢遮蔽建模”。



      該任務會完全遮蔽掉原始的用戶輸入,要求模型僅憑自己剛剛生成的“理解與復述”內容,來續寫出安全的“關鍵句”

      這種設計強迫模型必須“相信”并“利用”自己剛剛形成的、已經攜帶了安全信號的內部理解,從而極大地增強了安全決策的自主性和穩健性。

      測試:安全與能力的“雙贏”



      SafeKey的有效性在實驗中得到了充分驗證:

      安全性能顯著提升:實驗結果表明,SafeKey框架能夠顯著地提升模型的安全性,尤其是在面對訓練領域外的危險輸入和越獄提示的時候,能夠在三個不同大小的模型上降低9.6%的危險率

      有效維持核心能力:SafeKey完美地保持了模型原有的各項核心能力。在數學推理、代碼和通用語言理解等基準測試上,搭載SafeKey的模型甚至取得了比原始基線平均高0.8%的準確率



      模塊有效性驗證:消融實驗證明,“雙通路安全頭”和“查詢遮蔽建模”兩個模塊均可獨立提升模型安全性。進一步實驗分析發現,SafeKey能夠提升模型在生成關鍵句的時候對自己的復述與理解的注意力。同時,雙通路安全頭的損失函數能讓模型學到更好的安全表征,從而使安全頭更容易學會正確的安全分類。

      總的來說,SafeKey框架能夠應用在各種不同的大型推理模型上,在幾乎不影響模型能力的同時提升模型的安全性,并且需要較少的計算資源。

      論文地址:https://arxiv.org/pdf/2505.16186
      項目主頁:https://safekeylrm.github.io/
      復現代碼:https://github.com/eric-ai-lab/SafeKey/
      模型:https://huggingface.co/collections/kzhou35/safekey-682e1fe29f845acd875c0c8c

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      北大畢業生考取輔警?轉正后工資5111元至6839元 網友認為這是“大材小用”

      北大畢業生考取輔警?轉正后工資5111元至6839元 網友認為這是“大材小用”

      閃電新聞
      2025-11-06 12:41:51
      油頭粉面就別演警察!看廖凡的表現,才知道真警察是什么樣

      油頭粉面就別演警察!看廖凡的表現,才知道真警察是什么樣

      嫹筆牂牂
      2025-11-06 10:33:04
      國足選帥如同兒戲,足協說了不算慘遭打臉!不可抗的因素選邵佳一

      國足選帥如同兒戲,足協說了不算慘遭打臉!不可抗的因素選邵佳一

      中國足球的那些事兒
      2025-11-05 19:46:13
      遲遲等不到中方供貨后,安世荷蘭將負100%全責,商務部宣布大結局

      遲遲等不到中方供貨后,安世荷蘭將負100%全責,商務部宣布大結局

      青途歷史
      2025-11-06 00:57:14
      不顧美歐反對,中方邀請俄總理訪華,普京有個好消息要告訴中國

      不顧美歐反對,中方邀請俄總理訪華,普京有個好消息要告訴中國

      第一軍情
      2025-11-05 15:40:03
      見識過令人拍案叫絕的臨場反應嗎?評論區:我等凡人只有五體投地

      見識過令人拍案叫絕的臨場反應嗎?評論區:我等凡人只有五體投地

      夜深愛雜談
      2025-10-31 19:29:00
      美軍壓境委內瑞拉!三套作戰方案曝光,中國一句話讓白宮坐立不安

      美軍壓境委內瑞拉!三套作戰方案曝光,中國一句話讓白宮坐立不安

      起喜電影
      2025-11-06 11:27:22
      哈蘭德有什么特別之處?瓜帥:我不知道,因為我本來就不知道

      哈蘭德有什么特別之處?瓜帥:我不知道,因為我本來就不知道

      懂球帝
      2025-11-06 06:38:10
      1945年,跟林總一起趕赴東北的五位干部都是誰?建國后遭遇各不同

      1945年,跟林總一起趕赴東北的五位干部都是誰?建國后遭遇各不同

      冰雅憶史
      2025-11-06 09:33:19
      繼父娶我媽20年從不進我房間,媽媽走后他給我把鑰匙,說:別恨我

      繼父娶我媽20年從不進我房間,媽媽走后他給我把鑰匙,說:別恨我

      秋風專欄
      2025-05-21 17:11:13
      當楊振寧在斯德哥爾摩領獎時,全世界都看到杜致禮的微笑

      當楊振寧在斯德哥爾摩領獎時,全世界都看到杜致禮的微笑

      城事錄主
      2025-11-06 05:00:03
      神舟二十號載人飛船返回任務將推遲進行

      神舟二十號載人飛船返回任務將推遲進行

      新華社
      2025-11-05 09:58:03
      油價大跌超0.58元/升,今年大跌的油價,11月10日或漲超0.11元/升

      油價大跌超0.58元/升,今年大跌的油價,11月10日或漲超0.11元/升

      油價早知道
      2025-11-06 09:44:10
      女子在診所拍下感人一幕,妻子輸液時,像個孩子一樣靠在丈夫懷里!

      女子在診所拍下感人一幕,妻子輸液時,像個孩子一樣靠在丈夫懷里!

      張曉磊
      2025-11-03 09:51:21
      6連敗,穆里尼奧遭遇執教生涯歐冠最長連敗

      6連敗,穆里尼奧遭遇執教生涯歐冠最長連敗

      懂球帝
      2025-11-06 06:07:12
      經濟觀察報:國足選洋帥的經費僅有150萬美元,遠不及中超名帥

      經濟觀察報:國足選洋帥的經費僅有150萬美元,遠不及中超名帥

      蘭亭墨未干
      2025-11-06 12:05:02
      豆包PC端產品負責人齊俊元離職

      豆包PC端產品負責人齊俊元離職

      魯中晨報
      2025-11-06 07:11:03
      于謙財務暴雷僅 4 天,郭德綱近況曝出,原來他倆真的不是一路人

      于謙財務暴雷僅 4 天,郭德綱近況曝出,原來他倆真的不是一路人

      律便利
      2025-11-04 16:50:03
      是誰導致了美國衰敗?不是“無法無天”的特朗普,也非小布什拜登

      是誰導致了美國衰敗?不是“無法無天”的特朗普,也非小布什拜登

      軍機Talk
      2025-11-03 15:36:42
      上海警方通報:詹某(女,30歲)因垃圾堆放問題,與鄰居劉某(男,81歲)等3人發生肢體沖突,已立案

      上海警方通報:詹某(女,30歲)因垃圾堆放問題,與鄰居劉某(男,81歲)等3人發生肢體沖突,已立案

      極目新聞
      2025-11-05 14:43:38
      2025-11-06 13:32:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      11633文章數 176326關注度
      往期回顧 全部

      科技要聞

      蘋果“認輸”!曝每年10億美元租用谷歌AI

      頭條要聞

      副院長被指出軌女主任醫師 在值班室發生關系視頻流出

      頭條要聞

      副院長被指出軌女主任醫師 在值班室發生關系視頻流出

      體育要聞

      送走兩位全明星,公牛成了東部第一

      娛樂要聞

      白百何好友揭露爭獎細節

      財經要聞

      特朗普關稅遭美國高院大法官輪番質疑

      汽車要聞

      方向盤?不存在的 特斯拉 Cybercab亞太首秀

      態度原創

      時尚
      親子
      房產
      家居
      公開課

      中國色特別策劃 | 故宮技藝與古意新生

      親子要聞

      胡圖圖幼小銜接采取積分制,表現好就加分

      房產要聞

      中旅·三亞藍灣,以一座城市會客廳回應世界的濱海想象

      家居要聞

      別樣府院 暢享詩意生活

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲爆乳WWW无码专区| 久久日产一线二线三线| 国产av一区二区三区久久| 性色av无码久久一区二区三区| 中国CHINA体内裑精亚洲日本| 成人亚欧欧美激情在线观看| free性开放小少妇| 国产欧美精品一区二区三区-老狼| 在线精品视频一区二区三四 | 欧美熟妇乱子伦XX视频| 肥乡县| 四虎影视www在线播放| 日韩欧美亚洲综合久久| 中文字幕人成无码免费视频| 52熟女露脸国语对白视频| 亚洲春色在线视频| 精品人妻系列无码人妻漫画| 55夜色66夜色国产精品视频| 午夜dv内射一区二区| 国产精品福利自产拍在线观看| 亚洲激情一区二区三区视频| 伊人久久久大香线蕉综合直播| 久久精品国产清自在天天线| 国产欧美在线手机视频| 亚洲欧美日韩综合一区在线| 亚洲另类激情专区小说图片| 来凤县| 东京热加勒比无码少妇| 久久久精品人妻一区二区三区| 国产成人永久免费av在线| 日韩人妻不卡一区二区三区| 奇米777四色影视在线看| 玖玖在线精品免费视频| 换着玩人妻中文字幕| 久久精品网站免费观看| 国产精品久久毛片| 精品国产欧美一区二区五十路| 动漫AV纯肉无码AV电影网| 成人午夜福利精品一区二区| 香港三级韩国三级日本三级| 精品久久久久无码|