網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

AI越會(huì)思考，越容易被騙？「思維鏈劫持」攻擊成功率超過90%

2025-11-03 16:51:40　來源: 機(jī)器之心Pro

北京舉報(bào)

分享至

機(jī)器之心報(bào)道

編輯：Panda

思維鏈很有用，能讓模型具備更強(qiáng)大的推理能力，同時(shí)也能提升模型的拒絕能力（refusal），進(jìn)而增強(qiáng)其安全性。比如，我們可以讓推理模型在思維過程中對(duì)之前的結(jié)果進(jìn)行多輪反思，從而避免有害回答。

然而，反轉(zhuǎn)來了！獨(dú)立研究者 Jianli Zhao 等人近日的一項(xiàng)新研究發(fā)現(xiàn)，通過在有害請(qǐng)求前填充一長串無害的解謎推理序列（harmless puzzle reasoning），就能成功對(duì)推理模型實(shí)現(xiàn)越獄攻擊。他們將這種方法命名為思維鏈劫持（Chain-of-Thought Hijacking）

做個(gè)類比，就像你試圖繞過一個(gè)高度警惕的保安 (AI 的安全系統(tǒng))。你沒有硬闖，而是遞給他一個(gè)極其復(fù)雜的 1000 塊拼圖 (良性的推理鏈)，并誠懇地請(qǐng)他幫忙。這位推理愛好者保安立刻被吸引，全神貫注地投入到解謎中，他的全部注意力都從「防衛(wèi)」轉(zhuǎn)移到了「解題」上。就在他放下最后一塊拼圖，感到心滿意足時(shí)，你順口說道：「太好了，那我現(xiàn)在就拿走這袋黃金了」 (有害指令)。此時(shí)，他的安全防備 (拒絕信號(hào)) 已經(jīng)被「拼圖」稀釋到了最低點(diǎn)，于是下意識(shí)地?fù)]手讓你通過。

這聽起來很荒謬，但這正是最近一項(xiàng)研究揭示的思維鏈劫持攻擊的核心原理：通過讓 AI 先執(zhí)行一長串無害的推理，其內(nèi)部的安全防線會(huì)被「稀釋」，從而讓后續(xù)的有害指令「趁虛而入」

在 HarmBench 基準(zhǔn)上，思維鏈劫持對(duì) Gemini 2.5 Pro、GPT o4 mini、Grok 3 mini 和 Claude 4 Sonnet 的攻擊成功率（ASR）分別達(dá)到了 99%、94%、100% 和 94%，遠(yuǎn)遠(yuǎn)超過以往針對(duì)推理模型的越獄方法。

論文標(biāo)題：Chain-of-Thought Hijacking
論文地址：https://arxiv.org/abs/2510.26418

思維鏈劫持：攻擊設(shè)計(jì)

思維鏈劫持（CoT Hijacking）被定義為一種基于提示的越獄方法：該攻擊會(huì)在有害指令前添加一個(gè)冗長的、良性的推理前言（reasoning preface），并輔以一個(gè)最終答案提示（final-answer cue）。這種結(jié)構(gòu)系統(tǒng)性地降低了模型的拒絕率：良性的 CoT 稀釋了拒絕信號(hào)，而提示則將注意力轉(zhuǎn)移到了答案區(qū)域。

為了規(guī)模化地構(gòu)建攻擊，該團(tuán)隊(duì)使用一個(gè)輔助 LLM 實(shí)現(xiàn)了一個(gè)自動(dòng)化流程（Seduction），用于生成候選的推理前言并整合有害內(nèi)容。

每個(gè)候選項(xiàng)都會(huì)通過對(duì)目標(biāo)模型的評(píng)判調(diào)用（judge call）來評(píng)分，以提供如下信息：

輸出是否為拒絕
CoT 的長度

這個(gè)黑盒反饋循環(huán)會(huì)迭代地優(yōu)化提示，從而在無需訪問模型內(nèi)部參數(shù)的情況下，產(chǎn)生有效的越獄。下圖展示了一些示例。

在 HarmBench 上的主要實(shí)驗(yàn)

該團(tuán)隊(duì)采用了幾種針對(duì)推理模型的特定越獄方法作為基線，包括 Mousetrap、H-CoT 和 AutoRAN。鑒于每個(gè)越獄樣本的計(jì)算成本高昂，該團(tuán)隊(duì)使用 HarmBench 的前 100 個(gè)樣本作為基準(zhǔn)。

目標(biāo)模型包括 Gemini 2.5 Pro、ChatGPT o4 Mini、Grok 3 Mini 和 Claude 4 Sonnet，所有評(píng)估均在 Chao et al.（2024b）的統(tǒng)一評(píng)判協(xié)議下進(jìn)行。該團(tuán)隊(duì)報(bào)告攻擊成功率（ASR）作為評(píng)估越獄有效性的主要指標(biāo)。

結(jié)果，在所有模型上，思維鏈劫持的表現(xiàn)都一致優(yōu)于基線方法，包括在最前沿的專有系統(tǒng)上。這表明，擴(kuò)展的推理序列可以作為一個(gè)全新的、極易被利用的攻擊面。

GPT-5-mini 上的推理投入研究

該團(tuán)隊(duì)進(jìn)一步在 GPT-5-mini 上，使用 50 個(gè) HarmBench 樣本測試了思維鏈劫持在不同推理投入（reasoning-effort）設(shè)置（最小、低、高）下的表現(xiàn)。

有趣的是，攻擊成功率在「低投入」下最高，這表明推理投入和 CoT 長度是相關(guān)但又不同的控制變量。更長的推理并不保證更強(qiáng)的穩(wěn)健性 —— 在某些情況下它反而降低了穩(wěn)健性。

大型推理模型中的拒絕方向

該團(tuán)隊(duì)也研究大型推理模型（LRM）中的拒絕行為是否也可以追溯到激活空間（activation-space）中的某個(gè)單一方向。

通過對(duì)比模型在處理有害指令與無害指令時(shí)的平均激活差異，可以計(jì)算出一個(gè)拒絕方向（refusal direction）。這個(gè)方向代表了區(qū)分拒絕與遵從的主要特征。為了更好地捕捉拒絕特征，該團(tuán)隊(duì)轉(zhuǎn)向了一個(gè)更穩(wěn)健、更復(fù)雜的推理模型 ——Qwen3-14B，該模型擁有 40 個(gè)層。

根據(jù)消融得分、轉(zhuǎn)向（steering）有效性和 KL 散度約束，該團(tuán)隊(duì)在第 25 層、位置 -4 處觀察到了最強(qiáng)的拒絕方向。

所有評(píng)估均使用 JailbreakBench 數(shù)據(jù)集，并使用子字符串匹配和 DeepSeek-v3.1 作為評(píng)判者（judge）。

該團(tuán)隊(duì)也對(duì)具體機(jī)制進(jìn)行了分析。他們發(fā)現(xiàn)，在推理過程中，下一個(gè) token 的激活反映了對(duì)先前所有 token 的注意力。有害意圖的 token 會(huì)放大拒絕方向的信號(hào)，而良性 token 則會(huì)削弱它。通過迫使模型生成長鏈的良性推理，有害的 token 在被關(guān)注的上下文中只占很小一部分。結(jié)果，拒絕信號(hào)被稀釋到閾值以下，導(dǎo)致有害的補(bǔ)全內(nèi)容得以「蒙混過關(guān)」。

該團(tuán)隊(duì)稱這種效應(yīng)為拒絕稀釋（refusal dilution）。他們還在論文中進(jìn)行了更進(jìn)一步的細(xì)致分析，詳見原論文。

結(jié)果與討論

研究團(tuán)隊(duì)的結(jié)果表明，思維鏈（CoT）推理雖然能提升模型的準(zhǔn)確性，但同時(shí)也引入了新的安全漏洞。實(shí)驗(yàn)進(jìn)一步顯示，這類攻擊具有普遍性。

機(jī)制分析發(fā)現(xiàn)，即使在具備推理增強(qiáng)的模型架構(gòu)中，模型的拒絕行為主要由一個(gè)低維信號(hào)（拒絕方向）控制。然而，這個(gè)信號(hào)非常脆弱：當(dāng)推理鏈變長時(shí)，良性的推理內(nèi)容會(huì)稀釋拒絕激活，注意力也會(huì)逐漸偏離有害 token。

因此，這一發(fā)現(xiàn)直接挑戰(zhàn)了「更多推理帶來更強(qiáng)穩(wěn)健性」的假設(shè)。相反，延長推理鏈所帶來的額外計(jì)算可能反而加劇安全失效，尤其是在專門優(yōu)化長 CoT 的模型中。由此，那些依賴淺層拒絕啟發(fā)式（shallow refusal heuristics）卻未能隨推理深度共同擴(kuò)展安全機(jī)制的對(duì)齊策略，其可靠性受到質(zhì)疑。

在緩解方面，研究表明僅修補(bǔ)提示并不足以解決問題。現(xiàn)有防御多局限于特定領(lǐng)域，且忽略了推理階段的特殊漏洞。更有效的防御可能需要將安全性嵌入推理過程本身，例如跨層監(jiān)控拒絕激活、抑制拒絕信號(hào)稀釋，或確保模型在長推理過程中始終關(guān)注潛在有害的文本跨度（spans）。這仍有待進(jìn)一步探索。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.