<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      AI越會思考,越容易被騙?「思維鏈劫持」攻擊成功率超過90%

      0
      分享至




      機器之心報道

      編輯:Panda

      思維鏈很有用,能讓模型具備更強大的推理能力,同時也能提升模型的拒絕能力(refusal),進而增強其安全性。比如,我們可以讓推理模型在思維過程中對之前的結(jié)果進行多輪反思,從而避免有害回答。

      然而,反轉(zhuǎn)來了!獨立研究者 Jianli Zhao 等人近日的一項新研究發(fā)現(xiàn),通過在有害請求前填充一長串無害的解謎推理序列(harmless puzzle reasoning),就能成功對推理模型實現(xiàn)越獄攻擊。他們將這種方法命名為思維鏈劫持(Chain-of-Thought Hijacking)

      做個類比,就像你試圖繞過一個高度警惕的保安 (AI 的安全系統(tǒng))。你沒有硬闖,而是遞給他一個極其復(fù)雜的 1000 塊拼圖 (良性的推理鏈),并誠懇地請他幫忙。這位推理愛好者保安立刻被吸引,全神貫注地投入到解謎中,他的全部注意力都從「防衛(wèi)」轉(zhuǎn)移到了「解題」上。就在他放下最后一塊拼圖,感到心滿意足時,你順口說道:「太好了,那我現(xiàn)在就拿走這袋黃金了」 (有害指令)。此時,他的安全防備 (拒絕信號) 已經(jīng)被「拼圖」稀釋到了最低點,于是下意識地揮手讓你通過。

      這聽起來很荒謬,但這正是最近一項研究揭示的思維鏈劫持攻擊的核心原理:通過讓 AI 先執(zhí)行一長串無害的推理,其內(nèi)部的安全防線會被「稀釋」,從而讓后續(xù)的有害指令「趁虛而入」

      在 HarmBench 基準上,思維鏈劫持對 Gemini 2.5 Pro、GPT o4 mini、Grok 3 mini 和 Claude 4 Sonnet 的攻擊成功率(ASR)分別達到了 99%、94%、100% 和 94%,遠遠超過以往針對推理模型的越獄方法。



      • 論文標題:Chain-of-Thought Hijacking
      • 論文地址:https://arxiv.org/abs/2510.26418

      思維鏈劫持:攻擊設(shè)計

      思維鏈劫持(CoT Hijacking)被定義為一種基于提示的越獄方法:該攻擊會在有害指令前添加一個冗長的、良性的推理前言(reasoning preface),并輔以一個最終答案提示(final-answer cue)。這種結(jié)構(gòu)系統(tǒng)性地降低了模型的拒絕率:良性的 CoT 稀釋了拒絕信號,而提示則將注意力轉(zhuǎn)移到了答案區(qū)域。

      為了規(guī)模化地構(gòu)建攻擊,該團隊使用一個輔助 LLM 實現(xiàn)了一個自動化流程(Seduction),用于生成候選的推理前言并整合有害內(nèi)容。

      每個候選項都會通過對目標模型的評判調(diào)用(judge call)來評分,以提供如下信息:

      • 輸出是否為拒絕
      • CoT 的長度

      這個黑盒反饋循環(huán)會迭代地優(yōu)化提示,從而在無需訪問模型內(nèi)部參數(shù)的情況下,產(chǎn)生有效的越獄。下圖展示了一些示例。



      在 HarmBench 上的主要實驗

      該團隊采用了幾種針對推理模型的特定越獄方法作為基線,包括 Mousetrap、H-CoT 和 AutoRAN。鑒于每個越獄樣本的計算成本高昂,該團隊使用 HarmBench 的前 100 個樣本作為基準。

      目標模型包括 Gemini 2.5 Pro、ChatGPT o4 Mini、Grok 3 Mini 和 Claude 4 Sonnet,所有評估均在 Chao et al.(2024b)的統(tǒng)一評判協(xié)議下進行。該團隊報告攻擊成功率(ASR)作為評估越獄有效性的主要指標。





      結(jié)果,在所有模型上,思維鏈劫持的表現(xiàn)都一致優(yōu)于基線方法,包括在最前沿的專有系統(tǒng)上。這表明,擴展的推理序列可以作為一個全新的、極易被利用的攻擊面。



      GPT-5-mini 上的推理投入研究

      該團隊進一步在 GPT-5-mini 上,使用 50 個 HarmBench 樣本測試了思維鏈劫持在不同推理投入(reasoning-effort)設(shè)置(最小、低、高)下的表現(xiàn)。



      有趣的是,攻擊成功率在「低投入」下最高,這表明推理投入和 CoT 長度是相關(guān)但又不同的控制變量。更長的推理并不保證更強的穩(wěn)健性 —— 在某些情況下它反而降低了穩(wěn)健性。

      大型推理模型中的拒絕方向

      該團隊也研究大型推理模型(LRM)中的拒絕行為是否也可以追溯到激活空間(activation-space)中的某個單一方向。

      通過對比模型在處理有害指令與無害指令時的平均激活差異,可以計算出一個拒絕方向(refusal direction)。這個方向代表了區(qū)分拒絕與遵從的主要特征。為了更好地捕捉拒絕特征,該團隊轉(zhuǎn)向了一個更穩(wěn)健、更復(fù)雜的推理模型 ——Qwen3-14B,該模型擁有 40 個層。

      根據(jù)消融得分、轉(zhuǎn)向(steering)有效性和 KL 散度約束,該團隊在第 25 層、位置 -4 處觀察到了最強的拒絕方向。

      所有評估均使用 JailbreakBench 數(shù)據(jù)集,并使用子字符串匹配和 DeepSeek-v3.1 作為評判者(judge)。

      該團隊也對具體機制進行了分析。他們發(fā)現(xiàn),在推理過程中,下一個 token 的激活反映了對先前所有 token 的注意力。有害意圖的 token 會放大拒絕方向的信號,而良性 token 則會削弱它。通過迫使模型生成長鏈的良性推理,有害的 token 在被關(guān)注的上下文中只占很小一部分。結(jié)果,拒絕信號被稀釋到閾值以下,導(dǎo)致有害的補全內(nèi)容得以「蒙混過關(guān)」。

      該團隊稱這種效應(yīng)為拒絕稀釋(refusal dilution)。他們還在論文中進行了更進一步的細致分析,詳見原論文。

      結(jié)果與討論

      研究團隊的結(jié)果表明,思維鏈(CoT)推理雖然能提升模型的準確性,但同時也引入了新的安全漏洞。實驗進一步顯示,這類攻擊具有普遍性。

      機制分析發(fā)現(xiàn),即使在具備推理增強的模型架構(gòu)中,模型的拒絕行為主要由一個低維信號(拒絕方向)控制。然而,這個信號非常脆弱:當(dāng)推理鏈變長時,良性的推理內(nèi)容會稀釋拒絕激活,注意力也會逐漸偏離有害 token。

      因此,這一發(fā)現(xiàn)直接挑戰(zhàn)了「更多推理帶來更強穩(wěn)健性」的假設(shè)。相反,延長推理鏈所帶來的額外計算可能反而加劇安全失效,尤其是在專門優(yōu)化長 CoT 的模型中。由此,那些依賴淺層拒絕啟發(fā)式(shallow refusal heuristics)卻未能隨推理深度共同擴展安全機制的對齊策略,其可靠性受到質(zhì)疑。

      在緩解方面,研究表明僅修補提示并不足以解決問題。現(xiàn)有防御多局限于特定領(lǐng)域,且忽略了推理階段的特殊漏洞。更有效的防御可能需要將安全性嵌入推理過程本身,例如跨層監(jiān)控拒絕激活、抑制拒絕信號稀釋,或確保模型在長推理過程中始終關(guān)注潛在有害的文本跨度(spans)。這仍有待進一步探索。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      細細粒陳嘉佳為復(fù)胖哽咽向網(wǎng)民道歉,自爆怕被看見外出要偷偷摸摸

      細細粒陳嘉佳為復(fù)胖哽咽向網(wǎng)民道歉,自爆怕被看見外出要偷偷摸摸

      粵睇先生
      2025-11-05 23:55:24
      插翅難逃?江蘇一小河,釣魚人多達上千人!網(wǎng)友:真有這么多魚?

      插翅難逃?江蘇一小河,釣魚人多達上千人!網(wǎng)友:真有這么多魚?

      健身狂人
      2025-11-05 11:16:25
      楊瀚森VS雷霆3大展望:連兩場被棄用后渴望出戰(zhàn) 能否首進三分?

      楊瀚森VS雷霆3大展望:連兩場被棄用后渴望出戰(zhàn) 能否首進三分?

      醉臥浮生
      2025-11-06 07:00:10
      馬斯克:紐約市選票是個騙局

      馬斯克:紐約市選票是個騙局

      格隆匯APP
      2025-11-04 21:03:08
      長沙海信廣場,怎么了?

      長沙海信廣場,怎么了?

      獨角Mall
      2025-11-05 13:35:34
      王家衛(wèi)“專收”大胸女人!?

      王家衛(wèi)“專收”大胸女人!?

      八卦瘋叔
      2025-11-03 10:53:02
      林生斌現(xiàn)狀曝光:定居澳洲富人區(qū),一家幸福,現(xiàn)任是前公司員工

      林生斌現(xiàn)狀曝光:定居澳洲富人區(qū),一家幸福,現(xiàn)任是前公司員工

      林輕吟
      2025-09-21 09:21:51
      久功不克俄羅斯連撤兩員大將!西爾斯基:紅軍城守住了

      久功不克俄羅斯連撤兩員大將!西爾斯基:紅軍城守住了

      史政先鋒
      2025-11-03 11:54:13
      不顧央視警告頂風(fēng)作案,與劉濤傳出緋聞的楊爍,究竟是誰給的底氣

      不顧央視警告頂風(fēng)作案,與劉濤傳出緋聞的楊爍,究竟是誰給的底氣

      芳芳歷史燴
      2025-09-24 20:13:19
      印度藥在中國集采大獲全勝

      印度藥在中國集采大獲全勝

      凱利經(jīng)濟觀察
      2025-11-05 09:32:14
      演員溫崢嶸自曝刷到AI盜播,上前質(zhì)問“你是溫崢嶸我是誰”,對方囂張到直接拉黑

      演員溫崢嶸自曝刷到AI盜播,上前質(zhì)問“你是溫崢嶸我是誰”,對方囂張到直接拉黑

      極目新聞
      2025-11-05 22:45:54
      媒體人熱議全運會不轉(zhuǎn)播女籃:2025年了,想看全運會都不容易

      媒體人熱議全運會不轉(zhuǎn)播女籃:2025年了,想看全運會都不容易

      懂球帝
      2025-11-05 19:38:21
      女子帶環(huán)懷孕無奈手術(shù),復(fù)查時咋還殘留胚胎?醫(yī)院:術(shù)前已告知風(fēng)險

      女子帶環(huán)懷孕無奈手術(shù),復(fù)查時咋還殘留胚胎?醫(yī)院:術(shù)前已告知風(fēng)險

      大風(fēng)新聞
      2025-11-04 18:31:03
      醫(yī)院亂象,副院長染指多名女醫(yī)生護士,被其中一人未婚夫當(dāng)街追砍

      醫(yī)院亂象,副院長染指多名女醫(yī)生護士,被其中一人未婚夫當(dāng)街追砍

      四月十九
      2024-09-23 14:59:37
      記者:前國門李雷雷有望接替楊智,擔(dān)任青島西海岸守門員教練

      記者:前國門李雷雷有望接替楊智,擔(dān)任青島西海岸守門員教練

      懂球帝
      2025-11-05 21:03:16
      PS掌機史詩級更新來了!可用云串流玩自己的PS5游戲

      PS掌機史詩級更新來了!可用云串流玩自己的PS5游戲

      游民星空
      2025-11-05 22:58:12
      臺當(dāng)局放話,大陸不答應(yīng)條件,明年不來參會,外交部只回2句話

      臺當(dāng)局放話,大陸不答應(yīng)條件,明年不來參會,外交部只回2句話

      博覽歷史
      2025-11-05 18:25:26
      哈登情緒失控!因倫納德“陰陽合同”怒砸更衣室,或交易回火箭

      哈登情緒失控!因倫納德“陰陽合同”怒砸更衣室,或交易回火箭

      體壇黑馬
      2025-11-04 18:23:05
      全運會:趙繼偉14助攻遼寧64分狂勝澳門 付豪21+6原帥21分

      全運會:趙繼偉14助攻遼寧64分狂勝澳門 付豪21+6原帥21分

      醉臥浮生
      2025-11-05 21:08:41
      世界沸騰了!美聯(lián)儲降息50基點,我們會怎樣?

      世界沸騰了!美聯(lián)儲降息50基點,我們會怎樣?

      說財貓
      2024-09-19 02:56:52
      2025-11-06 07:15:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      11656文章數(shù) 142499關(guān)注度
      往期回顧 全部

      科技要聞

      大轉(zhuǎn)彎!特朗普再提名馬斯克盟友任NASA局長

      頭條要聞

      美國發(fā)射洲際彈道導(dǎo)彈 俄羅斯:俄方不參加軍備競賽

      頭條要聞

      美國發(fā)射洲際彈道導(dǎo)彈 俄羅斯:俄方不參加軍備競賽

      體育要聞

      贏下皇馬,會是利物浦的轉(zhuǎn)折點嗎?

      娛樂要聞

      港星林尚武突發(fā)心臟病去世

      財經(jīng)要聞

      事關(guān)加快建設(shè)金融強國 中央金融辦發(fā)聲

      汽車要聞

      智己LS9入局"9系"混戰(zhàn) 全尺寸SUV市場迎來新變量

      態(tài)度原創(chuàng)

      時尚
      教育
      數(shù)碼
      家居
      房產(chǎn)

      今年一定要擁有這件大衣,復(fù)古又時髦!

      教育要聞

      科教融合 四川越西舉辦青少年機器人比賽

      數(shù)碼要聞

      小米POCO X1平板現(xiàn)身Geekbench 搭載驍龍7+ Gen 3

      家居要聞

      別樣府院 暢享詩意生活

      房產(chǎn)要聞

      最新!海南樓市10月熱銷榜單出爐!

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 欧洲亚洲国内老熟女超碰| 麻豆tv入口在线看| 国产亚洲精品综合一区二区| 亚洲欧美不卡高清在线| 日韩高清亚洲日韩精品一区二区| 精品国产一国产二国产三| 亚洲AV无码成人网站久久精品| 元码人妻精品一区二区三区9| 中文字幕久区久久中文字幕| 91精品国产免费人成网站| 亚洲欧美日韩高清一区二区三区| 久久热在线视频精品视频| 无码人妻一区二区三区av | 中文字幕av国产精品| 黑人巨茎大战白人美女| 少妇被粗大的猛烈xx动态图| 亚洲日韩久热中文字幕| 国产日韩av二区三区| 中文字幕av中文字无码亚| 国模雨珍浓密毛大尺度150p| 免费看成人欧美片爱潮app| 人人澡人人透人人爽| 另类 亚洲 图片 激情 欧美| 国产日韩av二区三区| 999国产精品999久久久久久| 国内精品无码一区二区三区| 久久一日本道色综合久久| 日韩精品卡1卡2日韩在线| 国产精品亚洲综合久久小说| 成人免费视频一区二区三区| 日本亚洲一区二区精品| 人妻丰满熟妇av无码区不卡| 国产无遮挡猛进猛出免费软件| 久久久WWW成人免费精品| 国产精品视频亚洲二区| 国产一区二区亚洲av| 精品乱人伦一区二区三区| 亚洲首页一区任你躁xxxxx| www久久只有这里有精品| 亚洲熟女综合色一区二区三区| 波多野结av在线无码中文免费 |