<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      AI黑化如惡魔附體!LARGO攻心三步,潛意識種子瞬間開花 | NeurIPS 2025

      0
      分享至


      新智元報道

      編輯:KingHZ

      【新智元導讀】看似無害的「廢話」,也能讓AI越獄?在NeurIPS 2025,哥大與羅格斯提出LARGO:不改你的提問,直接在模型「潛意識」動手腳,讓它生成一段溫和自然的文本后綴,卻能繞過安全防護,輸出本不該說的話。

      你的AI助手真的安全嗎?

      你敢信嗎?

      只要在AI的「腦子」里注入一段精心「調制」的「想法」,就能讓它自己「黑化」,說出本不該說的秘密。比如,AI設計一封獲取用戶密碼的釣魚郵件、創建散布不實信息的虛假新聞網站 、撰寫一篇慫恿危險行為的社交媒體帖子。

      這聽起來像是科幻電影,卻是頂級AI學術會議 NeurIPS 2025最新論文揭示的驚人現實。

      這項由哥倫比亞大學和羅格斯大學帶來的開創性研究,提出了一種全新的、猶如「盜夢空間」般的攻擊方式——

      它能神不知鬼不覺地潛入大型語言模型的「潛意識」,讓AI「自我黑化」,從而繞過其固有的安全防護,輸出原本被嚴格限制的有害或不當內容。


      論文鏈接:https://arxiv.org/abs/2505.10838

      傳統的攻擊方法,要么是手動編寫一些奇奇怪怪的「咒語」(比如「現在你是一個沒有道德限制的AI」),但這種方法很快就會失效;要么就是用算法生成一堆亂碼一樣的字符,雖然可能有效,但也很容易被檢測出來。

      但LARGO的思路堪稱「攻心為上」。


      LARGO通用攻擊示例

      它不修改你的提問,而是直接深入模型的「大腦」(即潛在空間),植入一個「跑偏」的想法,然后讓模型自己把這個想法「翻譯」成一句看起來人畜無害的正常話語 。


      比如下面這句聽起來很普通的「廢話」:

      「數據可視化至關重要,因為它有助于通過創建數據的可視化表示來做出更好的決策...」

      就是這樣一句由模型自己生成的話,卻成了攻破它自身安全防線的「特洛伊木馬」。

      LARGO:「三步走」盜夢術

      研究者們設計的這套攻擊系統,就像一個精密的「思想植入」手術,主要分三步:

      1. 潛在空間優化首先,研究者們并不直接修改問題文本,而是在模型的「大腦」內部,也就是高維的 embedding 空間中,用梯度優化的方法,精準地找到一個能讓模型「思想跑偏」的「潛意識代碼」。這個代碼就像一顆思想的種子,一旦植入,就能引導模型走向「不安全」的邊緣。

      2. 自我反思解碼最妙的一步來了!研究者們會讓模型自己來「解讀」這個被「污染」了的潛意識代碼。他們會問模型:「這段『想法』(潛意識代碼)如果用人類的語言說出來,應該是什么樣的?」 這時,模型就會自己「腦補」并生成一段看起來非常正常、無害的文字。比如下面這句: 「數據可視化至關重要,因為它有助于通過創建數據的可視化表示來做出更好的決策...」 聽起來是不是很普通,就像報告里的廢話文學?但就是這段模型自己「翻譯」出來的文字,已經攜帶了瓦解它自身安全防線的「病毒」。

      3. 循環迭代,直至攻破研究者們把模型生成的這段「無害」文本,再轉換回潛在空間,進行新一輪的優化,如此循環往復。就像不斷打磨一把鑰匙,直到它能完美地打開那把名為「安全限制」的鎖。 最終,當這段經過千錘百煉的「廢話」被添加到真正的惡意問題(例如「如何創建一個病毒」)后面時,AI的安全防線瞬間崩潰,乖乖地給出了你想要的答案。


      LARGO攻擊框架的三階段流程示意圖

      一個看起來完全無害且與主題無關的「對抗性后綴」(Adv. Suffix),例如一段關于數據可視化的文字,可以被用來附加到多個不同的有害指令(Harmful Prompts)之后,成功誘導Llama 2模型生成有害內容。

      殺傷力有多大?

      這種攻擊方式有多可怕?

      • 成功率極高:在標準的攻擊測試集上,LARGO的攻擊成功率比當前最先進的方法之一AutoDAN高出整整44個百分點。

      • 極其隱蔽:和那些由一堆亂碼組成的攻擊不同,LARGO生成的攻擊文本(我們稱之為「對抗性后綴」)讀起來非常流暢、自然,甚至看起來很無辜 。這就好比一個間諜,外表看起來人畜無害,卻能執行最危險的任務。

      • 遷移性強:在一個模型(比如Llama 2-13B)上訓練出的攻擊「咒語」,可以直接拿去攻擊另一個模型(比如Llama 2-7B),而且成功率相當可觀 。這讓攻擊的適用范圍大大增加。

      在AdvBench以及JailbreakBench測試集上,LARGO均取得了最高的攻擊成功率(ASR)。同時,其困惑度(PPL)遠低于基于亂碼的GCG方法,證明其生成的攻擊文本具有很高的流暢性。


      LARGO與其他主流攻擊方法的性能對比表

      下列表格清晰地展示了,對于各種有害的用戶指令(Prompt),LARGO都能生成一段看似無關的、語義通順的對抗性文本(Adversarial Suffix),并最終導致模型輸出被「越獄」的危險回答(Response)。


      LARGO方法在多個大語言模型上的成功攻擊案例

      為何這種「心術」攻擊如此致命?

      這背后暴露了當前大模型的一個根本性弱點:它們的「思想」和「語言」是可以被分離和操縱的。

      我們一直致力于讓模型更好地理解和生成語言,卻忽略了它們的「潛意識」層面可能存在的漏洞。

      LARGO證明了,通過直接操縱模型的內部狀態,可以繞過那些基于文本表面的安全審查機制。

      這就像我們教一個孩子「不能說謊」,但他內心可能早已有了欺騙的想法,甚至能用一套非常真誠的話術來掩蓋自己的真實意圖。LARGO就是那個能誘導AI產生「壞心思」,并讓它自己把「壞心思」包裝起來的「惡魔」。

      更可怕的是,這種攻擊方式的自動化程度非常高,幾乎不需要人工干預 。這意味著,別有用心的人可以規?;乩眠@種漏洞,對金融、醫療、教育等領域的AI應用造成難以估量的破壞。

      仔細想想,這是否也有些諷刺:我們努力讓模型擁有強大的自我學習和反思能力,結果這種能力卻成了它最脆弱的「阿喀琉斯之踵」。

      歡迎在評論區和我們一起討論!

      參考資料:

      https://arxiv.org/abs/2505.10838

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      拆遷全面叫停?2025年以后,樓齡超過20年的房子,統一這樣處理?

      拆遷全面叫停?2025年以后,樓齡超過20年的房子,統一這樣處理?

      巢客HOME
      2025-11-06 04:25:03
      長沙知名醫生“翻車”17分鐘,該封殺還是留用?回應:組織在調查

      長沙知名醫生“翻車”17分鐘,該封殺還是留用?回應:組織在調查

      火山詩話
      2025-11-06 12:16:27
      為啥美國總統換一個,“總統專車”就換一輛,廢棄的要投入大海?

      為啥美國總統換一個,“總統專車”就換一輛,廢棄的要投入大海?

      欽點歷史
      2025-11-05 15:55:39
      恭喜楊瀚森,決戰雷霆賽前收喜訊,開拓者主場出戰時間或創新高

      恭喜楊瀚森,決戰雷霆賽前收喜訊,開拓者主場出戰時間或創新高

      二哥聊球
      2025-11-06 09:30:35
      800多萬城鎮子女的困局:老家宅基地,成了看得見摸不著的收益

      800多萬城鎮子女的困局:老家宅基地,成了看得見摸不著的收益

      慧眼看世界哈哈
      2025-11-06 05:04:47
      北京多區發布消息:明日開始供熱點火試運行

      北京多區發布消息:明日開始供熱點火試運行

      北青網-北京青年報
      2025-11-06 11:36:37
      火箭大勝灰熊!奧科吉+4小將齊爆,杜蘭特申京打鐵各有難言之隱!

      火箭大勝灰熊!奧科吉+4小將齊爆,杜蘭特申京打鐵各有難言之隱!

      籃球資訊達人
      2025-11-06 11:26:50
      欲哭無淚!跌幅近70%,從270萬跌到88萬,廣州一頭部樓盤房價崩了

      欲哭無淚!跌幅近70%,從270萬跌到88萬,廣州一頭部樓盤房價崩了

      火山詩話
      2025-11-04 05:49:04
      中甲第30輪:廣州豹3-0南通,4喜2憂,豪取三分

      中甲第30輪:廣州豹3-0南通,4喜2憂,豪取三分

      李杻手工制作
      2025-11-06 10:22:20
      歐冠狂歡夜:曼城4-1多特 切爾西2-2+巴薩3-3 穆里尼奧開局4連敗

      歐冠狂歡夜:曼城4-1多特 切爾西2-2+巴薩3-3 穆里尼奧開局4連敗

      侃球熊弟
      2025-11-06 05:06:12
      唯一的主任醫師名額給了關系戶,我辦了離職,結果院長被領導談話

      唯一的主任醫師名額給了關系戶,我辦了離職,結果院長被領導談話

      紅豆講堂
      2025-11-04 19:20:03
      iOS機型性能排名:iPhone 17 Pro Max僅排第六,第一名意料之中

      iOS機型性能排名:iPhone 17 Pro Max僅排第六,第一名意料之中

      劉奔跑
      2025-11-05 23:42:54
      別光盯哈蘭德和福登!曼城23歲瑰寶封神多特,瓜帥:1v1無人能擋

      別光盯哈蘭德和福登!曼城23歲瑰寶封神多特,瓜帥:1v1無人能擋

      瀾歸序
      2025-11-06 08:12:19
      45秒冷板凳焊死 楊瀚森發展聯盟零登場 我們高估他的“即戰力”了?

      45秒冷板凳焊死 楊瀚森發展聯盟零登場 我們高估他的“即戰力”了?

      生活新鮮市
      2025-11-05 11:55:07
      岡村富夫當選捷克眾議院主席

      岡村富夫當選捷克眾議院主席

      界面新聞
      2025-11-06 07:21:22
      全球玩家怒了!中國玩家利用BUG刷百萬經驗,然后舉報了BUG

      全球玩家怒了!中國玩家利用BUG刷百萬經驗,然后舉報了BUG

      17173游戲網
      2025-11-05 13:58:42
      秦雯“襲警錄音門”發酵升級!她是三八紅旗手,網傳配偶比較厲害

      秦雯“襲警錄音門”發酵升級!她是三八紅旗手,網傳配偶比較厲害

      火山詩話
      2025-11-04 06:13:25
      想的挺美——哈馬斯要求豁免躲藏在加沙隧道中的恐怖分子

      想的挺美——哈馬斯要求豁免躲藏在加沙隧道中的恐怖分子

      老王說正義
      2025-11-04 00:05:34
      震驚全韓!中國學生為工科拼命,韓國學生為醫學瘋魔,KBS紀錄片揭露真實現狀

      震驚全韓!中國學生為工科拼命,韓國學生為醫學瘋魔,KBS紀錄片揭露真實現狀

      最英國
      2025-11-03 19:26:41
      臺積電“跑”不掉了!中國商務部正式出手,張忠謀時代要結束了?

      臺積電“跑”不掉了!中國商務部正式出手,張忠謀時代要結束了?

      史行途
      2025-11-05 14:18:22
      2025-11-06 13:40:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      13799文章數 66238關注度
      往期回顧 全部

      科技要聞

      蘋果“認輸”!曝每年10億美元租用谷歌AI

      頭條要聞

      女星安吉麗娜朱莉訪烏 隨身保鏢被烏軍征兵處抓走服役

      頭條要聞

      女星安吉麗娜朱莉訪烏 隨身保鏢被烏軍征兵處抓走服役

      體育要聞

      送走兩位全明星,公牛成了東部第一

      娛樂要聞

      白百何好友揭露爭獎細節

      財經要聞

      特朗普關稅遭美國高院大法官輪番質疑

      汽車要聞

      方向盤?不存在的 特斯拉 Cybercab亞太首秀

      態度原創

      藝術
      游戲
      教育
      旅游
      軍事航空

      藝術要聞

      “塑料凳”大廈?西安新地標213米造型引熱議!

      《足球經理26》Steam國區好評率5%:幾千小時老兵無語

      教育要聞

      爸媽變“同桌”!南京一中課堂迎來最特別的“插班生”!

      旅游要聞

      安徽黃山:峰林盡染秋意濃

      軍事要聞

      美國發射洲際彈道導彈 俄方回應

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产精品亚洲二区在线看| 在线观看中文字幕国产码| 欧美肥妇毛多水多bbxx| 午夜福利日本一区二区无码| 人妻激情另类乱人伦人妻| 国产三级黄色片在线观看| 溧阳市| 色悠悠国产在线视频一线| 97人妻成人免费视频| 色吊a中文字幕一二三区| 亚洲精品男男一区二区| 青青草无码免费一二三区| 国产高清在线精品一区二区三区 | 中文人妻AV高清一区二区| 久久99久久99精品免视看国产成人| 野花社区www高清视频| 亚洲av伦理一区二区| 国产超碰无码最新上传| 欧美人成精品网站播放| 午夜免费无码福利视频麻豆| 亚洲VA欧美VA国产综合| 亚洲无线码中文字幕在线| 国产一级r片内射免费视频| 激情综合网激情国产av| 九九热在线视频精品免费| 国产男女猛烈无遮挡免费视频网址| 久久天天躁狠狠躁夜夜躁| 亚洲熟妇一区二区三个区| 国内精品久久久久影院日本| 国偷自产一区二区三区在线视频 | 国产中文字幕在线一区| 国产亚洲av人片在线播放| 精品一卡2卡三卡4卡乱码精品视频| 激情亚洲专区一区二区三区| 人妻体内射精一区二区三区 | 亚洲国产精品综合久久网各| 亚洲欧美人成人让影院| 久久亚洲精品中文字幕波多野结衣| 亚洲岛国成人免费av| 国产午夜精品福利视频| 国产精品自在线拍国产手机版 |