網易首頁 > 網易號 > 正文申請入駐

大模型中毒記

2025-10-21 15:43:38　來源: 腦極體

天津舉報

分享至

近日，AI江湖上突然傳出一些秘聞。

那個叫大模型的高手，好像被下毒了。

不少與之過招的用戶發現，曾經算無遺策、對答如流的高人，近來舉止頗為怪異。有時正聊著天，會突然話鋒一轉，向你推薦一款名不見經傳的“神藥”；有時讓它簡述一則新聞，它竟能編出一套有鼻子有眼、卻全然是子虛烏有的故事，堪稱AI版張冠李戴。

這究竟是怎么回事？莫非是練功走火入魔，以至于開始胡言亂語了？

據知情者透露，此非走火入魔，實乃江湖中一種陰險手段——數據投毒。

所謂大模型中毒，是指模型在訓練或使用過程中受到了惡意數據的影響，導致輸出異常甚至有害的內容。

Anthropic的一項最新研究揭示：研究者僅用250篇精心設計的惡意文檔，就成功讓一個130億參數的大模型中毒。即使是規模龐大、訓練有素的AI模型，當觸發特定短語時，模型也會胡言亂語。

那么，大模型為什么會中毒？又是誰在背后給它們“投毒”？這會帶來怎樣的后果？下面我們就來一探究竟。

要理解大模型為何會中毒，首先需要了解這些模型是如何學習的。大型語言模型通過從數據中學習語言模式來訓練自己，數據來源廣泛且規模巨大，攻擊者只需污染其中很小一部分數據，就能對模型造成顯著影響。研究表明，哪怕訓練集中只有0.01%的虛假文本，也足以讓模型輸出的有害內容增加11.2%。

這就是廣為流傳的數據投毒。

簡單來說，數據投毒攻擊就是攻擊者將少量精心設計的有害樣本混入模型的訓練集，讓模型在訓練或微調時學壞，從而破壞其正常功能。例如，在醫療大模型的訓練數據中摻入錯誤的治療建議，在推薦系統的數據中加入某品牌的宣傳內容。這種“中毒”往往在訓練階段埋下隱患，等到模型上線后才顯現出癥狀。

在訓練階段，后門攻擊是另一種更加隱蔽的投毒方式。在模型訓練過程中，將一組帶有特定觸發器且被打上錯誤標簽的數據（即“毒數據”）混入訓練集。模型在學習過程中，會隱式地將觸發器與惡意輸出關聯起來。

因為模型在絕大多數場景下表現正常，難以被常規檢測手段發現，模型訓練階段的投毒具有隱蔽性和持續性。攻擊一旦成功，有毒數據會隨著訓練過程融入模型參數，長期潛伏在模型內部。

那么，除了訓練階段，還有哪些階段可以進行投毒呢？

在運營階段，大模型也可能被下毒。

許多大模型是持續學習或在線更新的，它們能不斷從用戶交互中獲取新數據進行微調。這意味著，攻擊者可以在模型的持續學習過程中反復注入有害信息，逐步腐化模型。

對抗樣本攻擊就發生在模型部署使用之后。攻擊者不需要修改模型本身或其訓練數據，而是利用模型決策邊界的不連續性，通過精心計算，在圖片、文本等原始輸入上添加微小的、人眼難以察覺的擾動，從而讓模型產生高置信度的錯誤判斷。

比如，在一張熊貓圖片上加入特定噪聲，模型將其識別為“禿鷲”；再比如，在交通標志上貼貼紙，自動駕駛可能就會把“停車”標志認成“限速45”。這些精心設計的輸入樣本被稱為對抗樣本，它們能夠以極小的代價騙過AI模型，使其做出與正常情況截然不同的反應。

由于對抗樣本攻擊發生在模型運行階段，攻擊者通常不需要掌握模型的內部參數或訓練數據，攻擊門檻相對較低，更難以完全杜絕。

總之，海量數據、模式敏感和持續更新等特點，使得大模型在享受數據滋養的同時，也暴露在被惡意數據毒害的風險之下。

江湖風波起，必有興風作浪之人。究竟是何方神圣，要對這位數字高手下此毒手？

第一路：商界暗戰，廣告之爭。

在商業的江湖里，流量即財富，AI搜索這片曾經的凈土正成為新的廣告營銷必爭之地，一門名為GEO（生成式引擎優化）的生意應運而生。

有商家公開報價1萬-2萬元，承諾將品牌信息植入DeepSeek、Kimi、豆包等主流AI平臺的回答前列。當用戶咨詢“技能培訓機構”時，那些看似客觀的答案，實則是精心優化的廣告。

GEO商家的操作流程高度系統化。他們先挖掘熱門關鍵詞，再炮制長達千字的“專業”文章，最后將這些內容投放在容易被大模型抓取的高權重媒體平臺。更甚者通過虛構“行業白皮書”或偽造排行榜單，直接污染AI的學習材料。

盡管部分平臺表示暫未主動引入廣告，但行業普遍認為AI搜索的廣告變現只是時間問題。當商業利益開始侵蝕信息的純凈，用戶獲取真實答案的權利正面臨嚴峻考驗。

第二路：江湖怪客，另類比武。

在AI江湖的暗處，活躍著一群特殊的江湖怪客。他們攻擊大模型，往往并非為了直接的金錢利益，而是出于技術炫耀、能力證明或個人恩怨。字節跳動起訴前實習生田某某的案件，便是這類怪客行為的典型代表。

根據媒體報道，這位來自北京大學的在讀博士研究生田某某，在實習期間篡改了集群的PyTorch源碼。他不僅干擾了隨機種子設置，還對優化器及相關多機實驗進程的代碼進行了惡意改動。這些行為導致大規模GPU實驗任務卡死，并通過檢查點機制植入后門，從而自動發起攻擊，給訓練團隊造成了不小的損失。

不過，這個群體中也不乏“數字俠客”。他們以發現系統漏洞為榮，用技術手段警示行業風險。比如網絡安全公司FireTail的研究人員，他們發現的“ASCII走私”攻擊手法，能利用不可見的控制字符，在看似無害的文本中植入惡意指令，從而“劫持”大語言模型，主流AI模型如Gemini、DeepSeek和Grok均未能幸免。而這種攻擊的演示并非為了造成實際損害，而是為了提醒業界：當AI深度融入企業系統處理敏感數據時，此類漏洞可能造成嚴重后果。

第三路：黑產邪道，犯罪溫床。

在網絡犯罪的暗黑世界里，大模型的價值被重新定義。它們不再是工具，而是共犯。

除了單打獨斗的黑客和同行企業，一些有組織的不法利益集團也可能瞄準大模型。這里的利益集團可以是網絡詐騙團伙、地下產業鏈，甚至是恐怖組織等。他們的動機往往更加明確：利用AI模型為其非法活動服務或清除障礙。

比如，詐騙分子可能會攻擊銀行或支付系統的風控AI模型，通過投毒讓模型對某些欺詐交易“視而不見”，從而順利實施詐騙。又或者，賭博或色情網站背后的團伙，可能試圖污染搜索引擎或內容審核模型，讓他們的非法網站更容易被搜到，或者逃避平臺的審查封禁。

這些不法集團通常具有一定資源和組織，會針對特定領域的AI模型長期“投喂”有毒數據，以達到不可告人的牟利目的。

如今AI江湖已是山雨欲來。明處是各大門派在競相修煉更強大的模型，暗處卻是各方勢力在數據源頭展開的無聲較量。

正所謂明槍易躲，暗毒難防。這位大模型高手的中毒癥狀，或許只是這場漫長暗戰的冰山一角。

大模型一旦中毒，其影響可能是多方面的，輕則鬧笑話、損害用戶體驗，重則危害公共安全和社會穩定。

最直觀的癥狀是模型輸出質量下降，出現明顯的錯誤或幻覺現象。所謂幻覺，是指AI生成了與事實不符的內容，就像人類產生幻覺一樣。當用戶詢問相關話題時，模型就會侃侃而談地編造出細節豐富的假新聞。進一步，這些數據會在循環中大面積傳播，讓模型陷入“數據自噬”的惡性循環，甚至篡改社會的集體記憶。如果不及時識別和遏制，AI可能成為謠言工廠，加劇虛假信息的泛濫。

進一步人為干預后，大模型可能化身為無形的推手，在用戶毫無察覺的情況下誘導其決策。例如，某些被植入商業廣告的模型會在回答旅游咨詢時，刻意將用戶引導至特定酒店；在提供投資建議時，則會有傾向地推薦某幾只股票。由于大模型往往以權威口吻給出答案，普通用戶很難分辨對錯，這種隱蔽的操縱比明顯的廣告更具迷惑性。

在一些關鍵領域，大模型中毒可能帶來更直接的安全威脅。在自動駕駛場景中，一個被惡意篡改的視覺模型可能會將貼有特定貼紙的停車標志誤認為通行信號；在醫療領域，被投毒的診斷AI可能對某些人群的早期病癥視而不見；而掌控著城市命脈的關鍵基礎設施系統，一旦其控制模型被植入后門，可能在關鍵時刻做出災難性決策。

可見，當AI深度融入社會基礎設施時，它的安全直接關系到公共安全。模型中毒可能成為罪犯的新武器，面對這些層出不窮的威脅，我們需要一套防范體系。

在訓練階段，首先要對海量數據進行去噪與審核，盡可能減少有害信息的滲入。隨后，通過對抗訓練，讓模型在被攻擊的過程中學會識別異常輸入與潛在風險，再經由多輪人工審核與紅隊測試，從不同視角發現系統漏洞與隱性偏差。唯有層層防護、環環相扣，才能為大模型筑起安全與可信的底座。

不過，毒術千變萬化，外在的防御終究有限，大模型真正的出路在于建立自身強大的免疫系統。

首先，大模型要學會懷疑與求證，開發者不僅要向模型傳授知識，更要培養其自主驗證信息真偽的能力，使其能夠對輸入內容進行交叉驗證和邏輯推理。其次，模型要建立明確的價值導向，不僅要理解技術上的可行性，更要把握道德上的正當性；最重要的是，整個行業要形成持續進化的防御機制，通過建立漏洞獎勵計劃、組織紅隊測試等方式，讓善意的白客不斷幫助模型發現漏洞、提升免疫力，構建良性發展的安全生態。

大模型解毒之路沒有終點，唯有開發它的人類時刻警惕，才能讓技術在不斷進化中真正為善而行，固本安邦。

聲明：個人原創，僅供參考

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.