![]()
本文第一作者 / 通訊作者趙正宇來自西安交通大學,共同第一作者張焓韡、李仞玨分別來自德國薩爾大學、中科工業人工智能研究院。其他合作者分別來自法國馬賽中央理工、法國 INRIA 國家信息與自動化研究所、德國 CISPA 亥姆霍茲信息安全中心、清華大學、武漢大學、西安交通大學。
對抗樣本(adversarial examples)的遷移性(transferability)—— 在某個模型上生成的對抗樣本能夠同樣誤導其他未知模型 —— 被認為是威脅現實黑盒深度學習系統安全的核心因素。盡管現有研究已提出復雜多樣的遷移攻擊方法,卻仍缺乏系統且公平的方法對比分析:(1)針對攻擊遷移性,未采用公平超參設置的同類攻擊對比分析;(2)針對攻擊隱蔽性,缺乏多樣指標。
為了解決上述問題,本文依據通用機器學習全周期階段,將遷移攻擊方法系統性劃分為五大類,并首次針對 23 種代表性攻擊與 11 種代表性防御方法(包括針對遷移的防御與現實世界的視覺系統 API),在 ImageNet 數據集上開展對抗遷移性綜合評估,并通過大規模用戶實驗評估對抗隱蔽性。
本文證實上述評估缺陷確實導致了理解盲區甚至誤導性結論,而解決這些缺陷后帶來一系列新見解,例如:(1)早期攻擊方法 DI 性能反而超越所有后續同類攻擊;(2) 原本聲稱白盒防御方法 DiffPure 卻極易被(黑盒)遷移方法攻破;(3)幾乎所有攻擊方法在提升遷移性的同時,實則犧牲了(通過多樣化指標量化的)攻擊隱蔽性。
![]()
- 論文題目:Revisiting Transferable Adversarial Images: Systemization, Evaluation, and New Insights
- 接收期刊:TPAMI 2025
- 預印本鏈接:https://arxiv.org/abs/2310.11850
- 代碼鏈接:https://github.com/ZhengyuZhao/TransferAttackEval
研究現狀
對抗樣本的遷移性是研究深度學習系統魯棒性的重要課題。在真實世界中,攻擊者往往無法訪問目標模型的內部參數或訓練集(黑盒情形)。攻擊在一個 / 一類模型上生成后能否在另一個未知模型上保持效力(即攻擊遷移性),直接決定了攻擊的實際威脅水平與防御的有效性。
當前相關研究存在兩個長期被忽略但是影響深遠的問題:
- 攻擊遷移性(transferability)評估缺乏系統的一對一比較與公平的超參數設定:不同方法常在不同或不對等的超參數下對比,導致結論不可比或誤導性強。
- 攻擊隱蔽性(stealthiness)幾乎沒有被系統評估: 許多工作只報告 Lp 約束下的成功率,而忽略了視覺 / 感知質量和攻擊可溯源特性的差異;也就是說,攻擊「看上去」是否真實不可察覺并未被充分衡量。
這種不嚴格的比較與不完整的度量導致使得某些方法被高估或低估,進而誤導防御設計與研究方向。
![]()
創新發現
依托前文所建立的評估框架,我們得以從實驗結果中更清晰地分析對抗魯棒性的內在因素。以下部分將概述主要發現與啟發性結論:
1.在公平的超參數設定下,早期方法 DI 竟優于后續眾多所謂改進方法:許多后來被認為更強的遷移攻擊,實則得益于更有利的實驗設定。一旦把超參數公平化,DI 類的早期方法便會遙遙領先。因此,我們需要公平對比來避免誤導性結論。這不僅關系到學術層面的研究,更關系到實際系統對抗威脅的判斷與防御優先級的設定。
2.擴散(diffusion)類防御方法依賴 “虛假安全感”:基于擴散原理進行去噪的防御方法雖然聲稱在白盒或某些自適應攻擊下表現很強,但黑盒(遷移)攻擊反而可以很大程度上繞過這些防御。因此,此類防御方法只是由于評估不完善帶來的 “虛假安全感”
3.相同 Lp 約束下,不同攻擊在隱蔽性上有巨大差異,且隱蔽性與遷移性之間呈負相關:即便所有攻擊都受同一 Lp 限制,在視覺感知度量(PSNR/SSIM/LPIPS 等)上依然差距很大。因此,除了常用 Lp 約束外,需要同時報告遷移性與多維度隱蔽性指標,以便合理權衡攻擊遷移性與隱蔽性。
具體評估建議與攻防設計參考如下:
![]()
評估框架與結果
本文依據通用機器學習全周期階段,將遷移攻擊方法系統性劃分為五大類,如下圖所示:
![]()
本文涉及了 23 種代表性攻擊與 11 種代表性防御方法,如下表所示:
![]()
![]()
針對攻擊遷移性,本文從兩個維度入手修正與完善現有評估基準:(1)引入完整的遷移攻擊方法分類,并進行公平的類內(intra-category)比較;(2)從 “攻擊溯源(attack traceback)” 角度設計隱蔽性評估。更具體地說,本文拋棄了將不同類攻擊方法直接對比的傳統策略,而是對同類攻擊進行一對一、超參數公平化的對比實驗:統一攻擊強度約束(相同 Lp 限制)、統一優化 / 迭代預算,并在同一組目標模型 / 防御上逐項比較。
![]()
針對攻擊隱蔽性,本工作不再僅依靠單一 Lp 值來進行衡量,而是引入多樣化的感知質量指標(例如常用的 PSNR/SSIM/LPIPS 等)并結合更細粒度的隱蔽性特征。另外,本文創新性地引入 “攻擊溯源” 視角,分析攻擊是如何產生可見 / 可追溯的擾動(例如是否集中于圖像某些高頻區域、是否具有結構化模式、擾動是否容易被現有檢測器或去噪機制識別)。
![]()
![]()
![]()
![]()
未來展望
我們呼吁研究界在對比任何(攻防)方法時務必采用一對一、超參數合理的公平設計;報告遷移性時同時報告多種感知 / 隱蔽性指標(不僅是 Lp),并分析攻擊的可追溯性特征;在評估防御有效性時,必須納入可遷移黑盒攻擊的考驗,尤其是對擴散 / 去噪類防御要采用更全面的測試;公開代碼、超參數與評估腳本,以便社區復現與累積真實進展。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.