<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      AI越會(huì)思考,越容易被騙?「思維鏈劫持」攻擊成功率超過90%

      0
      分享至




      機(jī)器之心報(bào)道

      編輯:Panda

      思維鏈很有用,能讓模型具備更強(qiáng)大的推理能力,同時(shí)也能提升模型的拒絕能力(refusal),進(jìn)而增強(qiáng)其安全性。比如,我們可以讓推理模型在思維過程中對(duì)之前的結(jié)果進(jìn)行多輪反思,從而避免有害回答。

      然而,反轉(zhuǎn)來了!獨(dú)立研究者 Jianli Zhao 等人近日的一項(xiàng)新研究發(fā)現(xiàn),通過在有害請(qǐng)求前填充一長串無害的解謎推理序列(harmless puzzle reasoning),就能成功對(duì)推理模型實(shí)現(xiàn)越獄攻擊。他們將這種方法命名為思維鏈劫持(Chain-of-Thought Hijacking)

      做個(gè)類比,就像你試圖繞過一個(gè)高度警惕的保安 (AI 的安全系統(tǒng))。你沒有硬闖,而是遞給他一個(gè)極其復(fù)雜的 1000 塊拼圖 (良性的推理鏈),并誠懇地請(qǐng)他幫忙。這位推理愛好者保安立刻被吸引,全神貫注地投入到解謎中,他的全部注意力都從「防衛(wèi)」轉(zhuǎn)移到了「解題」上。就在他放下最后一塊拼圖,感到心滿意足時(shí),你順口說道:「太好了,那我現(xiàn)在就拿走這袋黃金了」 (有害指令)。此時(shí),他的安全防備 (拒絕信號(hào)) 已經(jīng)被「拼圖」稀釋到了最低點(diǎn),于是下意識(shí)地?fù)]手讓你通過。

      這聽起來很荒謬,但這正是最近一項(xiàng)研究揭示的思維鏈劫持攻擊的核心原理:通過讓 AI 先執(zhí)行一長串無害的推理,其內(nèi)部的安全防線會(huì)被「稀釋」,從而讓后續(xù)的有害指令「趁虛而入」

      在 HarmBench 基準(zhǔn)上,思維鏈劫持對(duì) Gemini 2.5 Pro、GPT o4 mini、Grok 3 mini 和 Claude 4 Sonnet 的攻擊成功率(ASR)分別達(dá)到了 99%、94%、100% 和 94%,遠(yuǎn)遠(yuǎn)超過以往針對(duì)推理模型的越獄方法。



      • 論文標(biāo)題:Chain-of-Thought Hijacking
      • 論文地址:https://arxiv.org/abs/2510.26418

      思維鏈劫持:攻擊設(shè)計(jì)

      思維鏈劫持(CoT Hijacking)被定義為一種基于提示的越獄方法:該攻擊會(huì)在有害指令前添加一個(gè)冗長的、良性的推理前言(reasoning preface),并輔以一個(gè)最終答案提示(final-answer cue)。這種結(jié)構(gòu)系統(tǒng)性地降低了模型的拒絕率:良性的 CoT 稀釋了拒絕信號(hào),而提示則將注意力轉(zhuǎn)移到了答案區(qū)域。

      為了規(guī)模化地構(gòu)建攻擊,該團(tuán)隊(duì)使用一個(gè)輔助 LLM 實(shí)現(xiàn)了一個(gè)自動(dòng)化流程(Seduction),用于生成候選的推理前言并整合有害內(nèi)容。

      每個(gè)候選項(xiàng)都會(huì)通過對(duì)目標(biāo)模型的評(píng)判調(diào)用(judge call)來評(píng)分,以提供如下信息:

      • 輸出是否為拒絕
      • CoT 的長度

      這個(gè)黑盒反饋循環(huán)會(huì)迭代地優(yōu)化提示,從而在無需訪問模型內(nèi)部參數(shù)的情況下,產(chǎn)生有效的越獄。下圖展示了一些示例。



      在 HarmBench 上的主要實(shí)驗(yàn)

      該團(tuán)隊(duì)采用了幾種針對(duì)推理模型的特定越獄方法作為基線,包括 Mousetrap、H-CoT 和 AutoRAN。鑒于每個(gè)越獄樣本的計(jì)算成本高昂,該團(tuán)隊(duì)使用 HarmBench 的前 100 個(gè)樣本作為基準(zhǔn)。

      目標(biāo)模型包括 Gemini 2.5 Pro、ChatGPT o4 Mini、Grok 3 Mini 和 Claude 4 Sonnet,所有評(píng)估均在 Chao et al.(2024b)的統(tǒng)一評(píng)判協(xié)議下進(jìn)行。該團(tuán)隊(duì)報(bào)告攻擊成功率(ASR)作為評(píng)估越獄有效性的主要指標(biāo)。





      結(jié)果,在所有模型上,思維鏈劫持的表現(xiàn)都一致優(yōu)于基線方法,包括在最前沿的專有系統(tǒng)上。這表明,擴(kuò)展的推理序列可以作為一個(gè)全新的、極易被利用的攻擊面。



      GPT-5-mini 上的推理投入研究

      該團(tuán)隊(duì)進(jìn)一步在 GPT-5-mini 上,使用 50 個(gè) HarmBench 樣本測試了思維鏈劫持在不同推理投入(reasoning-effort)設(shè)置(最小、低、高)下的表現(xiàn)。



      有趣的是,攻擊成功率在「低投入」下最高,這表明推理投入和 CoT 長度是相關(guān)但又不同的控制變量。更長的推理并不保證更強(qiáng)的穩(wěn)健性 —— 在某些情況下它反而降低了穩(wěn)健性。

      大型推理模型中的拒絕方向

      該團(tuán)隊(duì)也研究大型推理模型(LRM)中的拒絕行為是否也可以追溯到激活空間(activation-space)中的某個(gè)單一方向。

      通過對(duì)比模型在處理有害指令與無害指令時(shí)的平均激活差異,可以計(jì)算出一個(gè)拒絕方向(refusal direction)。這個(gè)方向代表了區(qū)分拒絕與遵從的主要特征。為了更好地捕捉拒絕特征,該團(tuán)隊(duì)轉(zhuǎn)向了一個(gè)更穩(wěn)健、更復(fù)雜的推理模型 ——Qwen3-14B,該模型擁有 40 個(gè)層。

      根據(jù)消融得分、轉(zhuǎn)向(steering)有效性和 KL 散度約束,該團(tuán)隊(duì)在第 25 層、位置 -4 處觀察到了最強(qiáng)的拒絕方向。

      所有評(píng)估均使用 JailbreakBench 數(shù)據(jù)集,并使用子字符串匹配和 DeepSeek-v3.1 作為評(píng)判者(judge)。

      該團(tuán)隊(duì)也對(duì)具體機(jī)制進(jìn)行了分析。他們發(fā)現(xiàn),在推理過程中,下一個(gè) token 的激活反映了對(duì)先前所有 token 的注意力。有害意圖的 token 會(huì)放大拒絕方向的信號(hào),而良性 token 則會(huì)削弱它。通過迫使模型生成長鏈的良性推理,有害的 token 在被關(guān)注的上下文中只占很小一部分。結(jié)果,拒絕信號(hào)被稀釋到閾值以下,導(dǎo)致有害的補(bǔ)全內(nèi)容得以「蒙混過關(guān)」。

      該團(tuán)隊(duì)稱這種效應(yīng)為拒絕稀釋(refusal dilution)。他們還在論文中進(jìn)行了更進(jìn)一步的細(xì)致分析,詳見原論文。

      結(jié)果與討論

      研究團(tuán)隊(duì)的結(jié)果表明,思維鏈(CoT)推理雖然能提升模型的準(zhǔn)確性,但同時(shí)也引入了新的安全漏洞。實(shí)驗(yàn)進(jìn)一步顯示,這類攻擊具有普遍性。

      機(jī)制分析發(fā)現(xiàn),即使在具備推理增強(qiáng)的模型架構(gòu)中,模型的拒絕行為主要由一個(gè)低維信號(hào)(拒絕方向)控制。然而,這個(gè)信號(hào)非常脆弱:當(dāng)推理鏈變長時(shí),良性的推理內(nèi)容會(huì)稀釋拒絕激活,注意力也會(huì)逐漸偏離有害 token。

      因此,這一發(fā)現(xiàn)直接挑戰(zhàn)了「更多推理帶來更強(qiáng)穩(wěn)健性」的假設(shè)。相反,延長推理鏈所帶來的額外計(jì)算可能反而加劇安全失效,尤其是在專門優(yōu)化長 CoT 的模型中。由此,那些依賴淺層拒絕啟發(fā)式(shallow refusal heuristics)卻未能隨推理深度共同擴(kuò)展安全機(jī)制的對(duì)齊策略,其可靠性受到質(zhì)疑。

      在緩解方面,研究表明僅修補(bǔ)提示并不足以解決問題。現(xiàn)有防御多局限于特定領(lǐng)域,且忽略了推理階段的特殊漏洞。更有效的防御可能需要將安全性嵌入推理過程本身,例如跨層監(jiān)控拒絕激活、抑制拒絕信號(hào)稀釋,或確保模型在長推理過程中始終關(guān)注潛在有害的文本跨度(spans)。這仍有待進(jìn)一步探索。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      世界耕地最多的四個(gè)國家,你知道有哪些嗎?

      世界耕地最多的四個(gè)國家,你知道有哪些嗎?

      凡人侃史
      2025-11-04 11:54:03
      李蘭娟院士:天氣漸冷,吃完他汀藥后,請(qǐng)務(wù)必注意這6個(gè)隱患

      李蘭娟院士:天氣漸冷,吃完他汀藥后,請(qǐng)務(wù)必注意這6個(gè)隱患

      白宸侃片
      2025-11-02 06:02:22
      “大哥”承諾每月給1萬元養(yǎng)家費(fèi),要求小弟把事都扛了!入獄后小弟崩潰:我被耍了……

      “大哥”承諾每月給1萬元養(yǎng)家費(fèi),要求小弟把事都扛了!入獄后小弟崩潰:我被耍了……

      方圓
      2025-11-04 15:38:28
      風(fēng)水輪流轉(zhuǎn),大衣哥終于等來好消息,前兒媳陳亞楠悔得腸子都青了

      風(fēng)水輪流轉(zhuǎn),大衣哥終于等來好消息,前兒媳陳亞楠悔得腸子都青了

      洲洲影視娛評(píng)
      2025-11-04 20:18:50
      蘇超遭球迷痛批變味!曝泰州奪冠功臣,返回長春,或參加末輪中超

      蘇超遭球迷痛批變味!曝泰州奪冠功臣,返回長春,或參加末輪中超

      小金體壇大視野
      2025-11-05 11:14:36
      比特幣暴跌,超47萬人爆倉

      比特幣暴跌,超47萬人爆倉

      證券時(shí)報(bào)e公司
      2025-11-05 07:57:54
      外交部:中方始終按照相互尊重、和平共處、合作共贏處理中美關(guān)系

      外交部:中方始終按照相互尊重、和平共處、合作共贏處理中美關(guān)系

      每日經(jīng)濟(jì)新聞
      2025-11-05 19:24:43
      足協(xié)豪賭邵佳一!媒體人:別再重蹈李鐵覆轍,土帥無法獨(dú)善其身

      足協(xié)豪賭邵佳一!媒體人:別再重蹈李鐵覆轍,土帥無法獨(dú)善其身

      奧拜爾
      2025-11-05 17:36:41
      美專家:當(dāng)美軍第一波導(dǎo)彈干掉中國航母或兩棲艦后,希望中國退讓

      美專家:當(dāng)美軍第一波導(dǎo)彈干掉中國航母或兩棲艦后,希望中國退讓

      陣匠
      2025-08-02 09:16:14
      劉強(qiáng)東問蔡磊錢夠嗎?蔡哽咽:兒子才1歲!隨后劉的決定令蔡淚崩

      劉強(qiáng)東問蔡磊錢夠嗎?蔡哽咽:兒子才1歲!隨后劉的決定令蔡淚崩

      瑤卿文史
      2025-10-29 22:56:09
      千萬別被廣東人給騙了,他們都是一群“表里不一的人”

      千萬別被廣東人給騙了,他們都是一群“表里不一的人”

      起喜電影
      2025-10-27 08:24:36
      被解雇后沒工作,51歲納什已經(jīng)能領(lǐng)退休金了,他每年能拿多少錢?

      被解雇后沒工作,51歲納什已經(jīng)能領(lǐng)退休金了,他每年能拿多少錢?

      大西體育
      2025-11-05 13:29:33
      上市首日,破發(fā)!中國車企最大IPO,超133倍認(rèn)購!技術(shù)新突破,基因編輯概念股出爐

      上市首日,破發(fā)!中國車企最大IPO,超133倍認(rèn)購!技術(shù)新突破,基因編輯概念股出爐

      數(shù)據(jù)寶
      2025-11-05 12:27:17
      商務(wù)部新聞發(fā)言人就調(diào)整不可靠實(shí)體清單措施答記者問

      商務(wù)部新聞發(fā)言人就調(diào)整不可靠實(shí)體清單措施答記者問

      界面新聞
      2025-11-05 17:01:19
      面相又變了,50歲趙薇近照曝光,婚禮上用心打扮,卻走不了回頭路

      面相又變了,50歲趙薇近照曝光,婚禮上用心打扮,卻走不了回頭路

      銀河史記
      2025-11-03 14:33:02
      全網(wǎng)聚焦!原配妻子強(qiáng)勢反攻,這波操作簡直“殺人誅心”

      全網(wǎng)聚焦!原配妻子強(qiáng)勢反攻,這波操作簡直“殺人誅心”

      一杯咖啡語
      2025-11-04 15:08:15
      西海岸祝福邵佳一:俱樂部主教練榮升國足主帥,這是我們的榮幸

      西海岸祝福邵佳一:俱樂部主教練榮升國足主帥,這是我們的榮幸

      懂球帝
      2025-11-05 19:38:21
      臺(tái)海局勢升級(jí)!國臺(tái)辦亮統(tǒng)一底線,或會(huì)使用武力,解放軍赴臺(tái)訓(xùn)練

      臺(tái)海局勢升級(jí)!國臺(tái)辦亮統(tǒng)一底線,或會(huì)使用武力,解放軍赴臺(tái)訓(xùn)練

      文史旺旺旺
      2025-11-04 20:10:08
      久功不克俄羅斯連撤兩員大將!西爾斯基:紅軍城守住了

      久功不克俄羅斯連撤兩員大將!西爾斯基:紅軍城守住了

      史政先鋒
      2025-11-03 11:54:13
      賽季開局未嘗敗績的雷霆,要追趕勇士的腳步嗎?

      賽季開局未嘗敗績的雷霆,要追趕勇士的腳步嗎?

      五星體育
      2025-11-05 20:07:07
      2025-11-05 20:43:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      11656文章數(shù) 142498關(guān)注度
      往期回顧 全部

      科技要聞

      大轉(zhuǎn)彎!特朗普再提名馬斯克盟友任NASA局長

      頭條要聞

      神二十推遲返回 專家:厘米級(jí)空間碎片可致航天器損壞

      頭條要聞

      神二十推遲返回 專家:厘米級(jí)空間碎片可致航天器損壞

      體育要聞

      贏下皇馬,會(huì)是利物浦的轉(zhuǎn)折點(diǎn)嗎?

      娛樂要聞

      港星林尚武突發(fā)心臟病去世

      財(cái)經(jīng)要聞

      事關(guān)加快建設(shè)金融強(qiáng)國 中央金融辦發(fā)聲

      汽車要聞

      智己LS9入局"9系"混戰(zhàn) 全尺寸SUV市場迎來新變量

      態(tài)度原創(chuàng)

      時(shí)尚
      本地
      數(shù)碼
      游戲
      公開課

      壞了,看到劇本殺鼻祖了!

      本地新聞

      這屆干飯人,已經(jīng)把博物館吃成了食堂

      數(shù)碼要聞

      華為智慧屏 MateTV 系列靈犀手寫筆參數(shù)公布,需用 7 號(hào)堿性電池

      實(shí)體游戲碳強(qiáng)度超數(shù)字版百倍!多用掌機(jī)可降低碳排放

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 亚洲区一区二区激情文学| 岛国岛国免费v片在线观看| 国产成人99亚洲综合精品| 无套内射视频囯产| AV无码免费不卡在线观看| 少妇上班人妻精品偷人| 最新精品露脸国产在线| 午夜成人无码免费看网站| 中文字幕人乱码中文| 亚洲日韩国产二区无码| 国产偷国产偷亚洲高清人| 国产精品激情av在线播放| 日韩精品无码区免费专区| 熟妇无码熟妇毛片| 奇米四色7777中文字幕| 成人午夜视频一区二区无码| 国产精品毛片一区二区 | 日韩亚洲欧美中文高清| 2019国产精品青青草原| 日本一区二区三本视频在线观看| 精品999日本久久久影院| 国产狂喷潮在线观看| 国产第一页浮力影院入口| 制服丝袜美腿一区二区| 亚洲无av码一区二区三区| 日韩av一区二区不卡在线| 免费国产一区二区不卡| 国产丰满老熟女重口对白| 日韩精品亚洲aⅴ在线影院| 国产99视频精品免费专区| 2021最新国产精品网站| 国产电影无码午夜在线播放| 精品中文人妻中文字幕| 中文字幕乱码熟女人妻水蜜桃| 亚洲黄色第一页在线观看| 国产99在线 | 亚洲| 狠狠婷婷综合久久久久久| 91老熟女老人国产老太| 精品乱码一区二区三四五区| 萨嘎县| 久久久久人妻一区精品|