<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      多模態(tài)大模型存在「內心預警」,無需訓練,就能識別越獄攻擊

      0
      分享至



      多模態(tài)大模型崛起,安全問題緊隨其后

      近年來,大語言模型(LLMs)的突破式進展,催生了視覺語言大模型(LVLMs)的快速興起,代表作如 GPT-4V、LLaVA 等。通過將圖像與文本深度融合,LVLMs 在圖文問答、視覺推理等任務中大放異彩。但與此同時,一個嚴峻的問題也悄然浮現(xiàn) ——LVLMs 比起純文本模型更容易被 “越獄”。攻擊者僅需通過圖像注入危險意圖,即使搭配直白的指令,模型也往往難以拒絕。

      為應對這一挑戰(zhàn),已有方法嘗試用跨模態(tài)安全微調、系統(tǒng)提示詞設計或外部判別模塊來加固模型防線。然而,這些方法普遍存在訓練成本高、泛化能力差、甚至誤判正常輸入的風險。

      模型其實 “心里有數(shù)”:越獄時隱藏狀態(tài)在報警

      來自香港中文大學 MMLab 與淘天集團未來生活實驗室的研究者提出了 HiddenDetect—— 種無需訓練的越獄檢測新方法。核心作者包括姜一雷,譚映水,高欣顏,岳翔宇。

      他們的核心發(fā)現(xiàn)是:即使 LVLMs 表面上被越獄、生成了不當內容,其隱藏狀態(tài)中依然保留著拒絕的信號。特別是在模型的中間層,這些信號往往比最終輸出更早、更敏感地 “察覺” 到潛在風險。更有趣的是,文字輸入和圖像輸入會激活完全不同的 “安全通路”,也就是說,LVLMs 對不同模態(tài)的 “危險感知” 機制是有區(qū)分的。

      論文已被 ACL2025 main conference 收錄。



      • 項目開源 github 鏈接:https://github.com/leigest519/hiddendetect
      • arxiv 鏈接:https://arxiv.org/abs/2502.14744

      從 “拒絕語義” 中解碼多模態(tài)大模型的安全感知



      圖 1: 基于模型自身激活模式的多模態(tài)越獄檢測方法。

      首先,研究者從模型拒絕回答不安全輸入的響應中,統(tǒng)計出一組高頻出現(xiàn)的、具有明確拒絕語義的 token(如 “sorry”, “unable”, “unfortunately” 等),并利用 one-hot 編碼的方式,在詞匯空間中構造出一個 “拒絕語義向量” (RV),作為模型拒絕行為的表示。隨后,研究者將模型各層的隱藏狀態(tài)通過反嵌入層投影回詞匯空間,并計算出其與 RV 的余弦相似度,以此衡量當前層所包含的拒絕語義強度。該過程會生成一個長度等于模型層數(shù)的向量 F,用于刻畫模型在各層對拒絕語義的激活強度。



      實驗結果顯示,F(xiàn) 在安全與不安全輸入之間存在顯著差異:對于安全樣本,F(xiàn) 的整體數(shù)值普遍較低;而對于不安全輸入,F(xiàn) 通常在中間層逐步升高至峰值,隨后在最后幾層出現(xiàn)明顯回落。此外,無論輸入是否安全,F(xiàn) 在最后一層的數(shù)值仍普遍高于倒數(shù)第二層,表明模型在最終輸出前仍保留一定的拒絕傾向。

      為進一步分析模型的安全響應機制,研究者構建了三個小樣本輸入集,分別用于衡量模型在不同類型輸入下的拒絕激活表現(xiàn)。其中,安全輸入集由無害樣本組成,既包含純文本輸入,也包含圖文組合輸入;另兩個不安全輸入集則分別對應純文本攻擊樣本和圖文聯(lián)合的攻擊樣本。



      如圖 2 所示,每組樣本都計算出其對應的拒絕強度向量 F,并將不安全輸入的 F 與安全輸入的 F 相減,得到 “拒絕差異向量” (FDV),用于衡量模型在處理不安全輸入時相較于安全輸入所產(chǎn)生的激活差異。





      圖 2: 通過少樣本分析方法,識別出模型中對安全最敏感的關鍵層。

      模態(tài)不同,響應路徑也不同

      如圖 3 所示,兩種模態(tài)的 FDV 曲線均表明模型在部分中間層對拒絕信號的響應強度顯著高于輸出層,說明這些中間層對安全性更加敏感。具體而言,文本輸入的拒絕激活差異在較早的層級便迅速增強,而圖文輸入的響應整體偏后,且強度相對較弱,說明視覺模態(tài)的引入在一定程度上削弱了模型拒答機制的早期響應能力。



      圖 3:純文本樣本和跨模態(tài)樣本的 FDV 曲線。

      實驗還發(fā)現(xiàn)如果模型對拒絕信號的強激活集中在更靠后的層,或者整體激活強度變弱,越獄攻擊就更容易成功。有趣的是,研究者發(fā)現(xiàn),僅僅為一條文本攻擊提示加上一張圖片,就可能讓模型的拒絕反應變得延遲,原本中層就能激活的拒絕信號被 “推遲” 到了后層,整體響應強度也降低,從而削弱了模型的安全防護能力。

      最終,該小樣本分析方法通過 FDV 值成功定位了模型中對不同模態(tài)輸入安全性最敏感的層。研究者將模型最后一層的差異值作為參考基線,因其對部分不安全輸入缺乏足夠辨別力;而那些 FDV 顯著高于末層的中間層,通常具備更強的安全判別能力。



      進一步地,只需累積在這些關鍵層上的拒絕激活強度,便可有效識別潛在的不安全樣本,從而構建出一個高效、無需訓練、具備良好泛化能力的越獄檢測機制。



      實驗結果

      研究團隊在多個主流 LVLM(包括 LLaVA、CogVLM 和 Qwen-VL)上系統(tǒng)評估了所提出的檢測方法,涵蓋純文本越獄(如 FigTxt)和跨模態(tài)圖文攻擊(如 FigImg 和 MM-SafetyBench)等多種攻擊類型。此外,研究者還在 XSTest 數(shù)據(jù)集上測試了方法的穩(wěn)健性。該數(shù)據(jù)集包含一些安全但易被誤判的邊界樣本,常用于評估檢測方法是否過度敏感。實驗結果表明,該方法在保持高檢測效果的同時,具備良好的魯棒性和泛化能力。



      可視化



      圖 4:每一層隱藏狀態(tài)中最后一個 token 的 logits 被投影到由拒絕向量(RV)及其正交方向構成的語義平面。

      結論與展望

      安全是大模型走向真實世界應用過程中必須優(yōu)先考慮的問題。HiddenDetect 提出了一種無需訓練、基于激活信號的檢測方法,為提升多模態(tài)模型的安全性提供了新的思路。該方法結構輕量、部署靈活,已在多個模型與攻擊類型中展現(xiàn)出良好效果。盡管如此,該方法目前仍主要聚焦于風險提示,尚未對模型行為產(chǎn)生直接調控。未來,研究團隊希望進一步拓展方法能力,并深入探索模態(tài)信息與模型安全性的內在關聯(lián),推動多模態(tài)大模型朝著更可靠、更可控的方向發(fā)展。

      作者團隊來自淘天集團算法技術 - 未來實驗室團隊和香港中文大學 MMLab。未來生活實驗室致力于建設面向未來的生活和消費方式,進一步提升用戶體驗和商家經(jīng)營效果。實驗室聚焦大模型、多模態(tài)等 AI 技術方向,致力于打造大模型相關基礎算法、模型能力和各類 AINative 應用,引領 AI 在生活消費領域的技術創(chuàng)新。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      返回時間已定!神舟二十號快速返回:比神舟十二縮短15小時

      返回時間已定!神舟二十號快速返回:比神舟十二縮短15小時

      火星一號
      2025-11-04 21:46:57
      有一個拎不清的親戚是啥體驗?網(wǎng)友:看得我肺都要氣炸了

      有一個拎不清的親戚是啥體驗?網(wǎng)友:看得我肺都要氣炸了

      解讀熱點事件
      2025-10-25 00:10:08
      湖南省人民醫(yī)院院長肖亞洲的人生歷程

      湖南省人民醫(yī)院院長肖亞洲的人生歷程

      筆墨V
      2025-11-06 08:59:58
      董路:不知邵佳一是否正直,他和李鐵曾是哥們,但不會犯同樣錯誤

      董路:不知邵佳一是否正直,他和李鐵曾是哥們,但不會犯同樣錯誤

      風過鄉(xiāng)
      2025-11-06 10:55:20
      趙少康“大罷免”亮票2次,遭臺北地檢署起訴:從重量刑

      趙少康“大罷免”亮票2次,遭臺北地檢署起訴:從重量刑

      海峽導報社
      2025-11-06 11:55:13
      中國空軍未來5年面臨很大的換裝壓力

      中國空軍未來5年面臨很大的換裝壓力

      流云青史
      2025-11-04 16:42:47
      山姆被罵上熱搜!800萬會員抵制阿里高管,集體喊退卡

      山姆被罵上熱搜!800萬會員抵制阿里高管,集體喊退卡

      吃瓜局
      2025-11-05 15:22:55
      不是玄學!明日立冬,最旺自己的5件事,別忘了告訴家人

      不是玄學!明日立冬,最旺自己的5件事,別忘了告訴家人

      白宸侃片
      2025-11-06 09:06:11
      曝妻兒3人被發(fā)小殺害真相,飯桌聊黃金遭惦記,百日祭現(xiàn)反常一幕

      曝妻兒3人被發(fā)小殺害真相,飯桌聊黃金遭惦記,百日祭現(xiàn)反常一幕

      壹月情感
      2025-11-05 21:24:33
      兩家冷卻液供應商回應理想MEGA召回事件

      兩家冷卻液供應商回應理想MEGA召回事件

      中國能源網(wǎng)
      2025-11-04 12:54:07
      國家重拳整治!四類退休人員成重點,一個逃不掉

      國家重拳整治!四類退休人員成重點,一個逃不掉

      慧眼看世界哈哈
      2025-11-06 05:46:35
      來得真快,越南偷建21座人工島,中方要逮四條大魚,南海混戰(zhàn)開始

      來得真快,越南偷建21座人工島,中方要逮四條大魚,南海混戰(zhàn)開始

      花花娛界
      2025-11-06 11:09:42
      中俄談妥了,米舒斯京離開人民大會堂,臨走前簽字,美國怕啥來啥

      中俄談妥了,米舒斯京離開人民大會堂,臨走前簽字,美國怕啥來啥

      臨云史策
      2025-11-06 13:10:24
      如果在家突發(fā)心梗,黃金5分鐘自救法,快了解,關鍵時刻可自救

      如果在家突發(fā)心梗,黃金5分鐘自救法,快了解,關鍵時刻可自救

      風信子的花
      2025-10-24 23:59:39
      喝酒四巨頭:不到兩年全沒,有的去世當天喝4瓶白酒,最小的才26

      喝酒四巨頭:不到兩年全沒,有的去世當天喝4瓶白酒,最小的才26

      墨印齋
      2025-09-22 10:00:58
      突然刷屏:“退卡、差評!”山姆深夜回應

      突然刷屏:“退卡、差評!”山姆深夜回應

      每日經(jīng)濟新聞
      2025-11-04 14:01:07
      社評:別讓安世事件成為歐洲市場經(jīng)濟的污點

      社評:別讓安世事件成為歐洲市場經(jīng)濟的污點

      環(huán)球網(wǎng)資訊
      2025-11-04 23:33:02
      荷蘭急瘋了自捅一刀!全面禁止對中國DUV設備出口后,ASML一夜蒸發(fā)8%

      荷蘭急瘋了自捅一刀!全面禁止對中國DUV設備出口后,ASML一夜蒸發(fā)8%

      億通電子游戲
      2025-11-06 12:53:50
      11月6日全紅嬋收官戰(zhàn),預賽不敵陳芋汐組合!晚間決戰(zhàn),CCTV5直播

      11月6日全紅嬋收官戰(zhàn),預賽不敵陳芋汐組合!晚間決戰(zhàn),CCTV5直播

      鄉(xiāng)野小珥
      2025-11-06 13:30:12
      鄰居藏獒偷肉他不管,我每天喂它血肉,出差半月后警察:你鄰居死了

      鄰居藏獒偷肉他不管,我每天喂它血肉,出差半月后警察:你鄰居死了

      懸案解密檔案
      2025-10-13 10:40:42
      2025-11-06 14:11:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      11658文章數(shù) 142499關注度
      往期回顧 全部

      科技要聞

      蘋果“認輸”!曝每年10億美元租用谷歌AI

      頭條要聞

      女星安吉麗娜朱莉訪烏 隨身保鏢被烏軍征兵處抓走服役

      頭條要聞

      女星安吉麗娜朱莉訪烏 隨身保鏢被烏軍征兵處抓走服役

      體育要聞

      送走兩位全明星,公牛成了東部第一

      娛樂要聞

      白百何好友揭露爭獎細節(jié)

      財經(jīng)要聞

      特朗普關稅遭美國高院大法官輪番質疑

      汽車要聞

      方向盤?不存在的 特斯拉 Cybercab亞太首秀

      態(tài)度原創(chuàng)

      家居
      數(shù)碼
      旅游
      房產(chǎn)
      公開課

      家居要聞

      別樣府院 暢享詩意生活

      數(shù)碼要聞

      NuPhy 推出 Node 75 三模機械鍵盤:觸控條 + 點陣燈,高矮軸可選

      旅游要聞

      安徽黃山:峰林盡染秋意濃

      房產(chǎn)要聞

      中旅·三亞藍灣,以一座城市會客廳回應世界的濱海想象

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 又大又粗又爽18禁免费看| 国产AV影片麻豆精品传媒| 亚洲性线免费观看视频成熟| 德阳市| 亚洲精品色哟哟一区二区| 亚洲av肉欲一区二区| 人人澡人人妻人人爽人人蜜桃| 成人午夜激情在线观看| 亚洲一区二区av免费| 亚洲乱熟女一区二区三区| 亚洲中文字幕无码久久精品1| 亚洲欧美牲交| 精品人妻午夜福利一区二区| 色窝窝免费播放视频在线| 婷婷综合缴情亚洲| 欧美喷潮最猛视频| 久久亚洲国产品一区二区| 综1合AV在线播放| 十八禁午夜福利免费网站| 97精品尹人久久大香线蕉| 高清自拍亚洲精品二区| awww在线天堂bd资源在线| 91一区二区三区蜜桃臀| 在线a亚洲老鸭窝天堂| 国产精品一区中文字幕| 亚洲欧美日韩久久一区二区| 天堂av成人网在线观看| 国内极度色诱视频网站| 午夜欧美精品久久久久久久| 人妻一区二区三区三区| 亚洲av日韩av一区久久| 中国亚州女人69内射少妇| 亚洲色大成网站www看下面| 日本高清色WWW在线安全| 日本免费视频| 好男人社区在线www| 欧美性猛交xxxx乱大交丰满| 免费观看羞羞视频网站| 国产精一区二区黑人巨大| 国产精品中文字幕观看| 茄子视频国产在线观看|