DNN解释系统的后门攻击

Nov, 2020

Backdoor Attacks on the DNN Interpretation System

Shihong Fang, Anna Choromanska

TL;DR本文利用注入的触发器设计了一种后门攻击，可以更改神经网络产生的显著性图，以达到对输入图像的干扰而不影响分类结果的目的，从而展示其对不可信来源的深度模型部署所构成的严重安全威胁。

Abstract

interpretability is crucial to understand the inner workings of deep neural networks (DNNs) and many interpretation methods generate saliency map

发现论文，激发创造

通过隐写和正则化对深度神经网络进行不可见的后门攻击

该论文通过在深度神经网络中嵌入不可察觉的触发器，实现了一种无形的后门攻击，旨在欺骗模型产生意外行为，同时提出了两种评估指标，评估攻击成功率、功能性和不可见性，并证明此方法可以有效地防范目前最先进的后门检测方法，例如神经网络清理和TABOR。

Sep, 2019

隐蔽触发后门攻击

本研究提出一种新颖的深度学习后门攻击方式，攻击者能够在训练过程中提供正常标注的毒瘤数据，并在毒瘤数据中隐藏触发器，待测试时再激活攻击，从而欺骗模型，而该攻击方式无法轻易通过最先进的后门攻击的防御算法进行防御。

Sep, 2019

防御深度神经网络后门攻击

本文研究深度神经网络面临的后门攻击问题，提出了基于L∞规范的神经元修剪方法来消除后门，实验证明该方法成功率显著降低，并对清晰图像保持高分类准确度。

Feb, 2020

深度学习模型中的盲后门

研究人员提出了一种新的方法，通过破坏模型训练代码中的损失值计算来注入后门，用于展示比以前文献中更强大的后门类型，包括单像素和物理后门以及能将模型转换为隐蔽，侵犯隐私任务的后门，同时无需修改推理时输入。攻击是盲目的：攻击者无法修改训练数据，也无法观察他的代码执行，也无法访问生成的模型。攻击代码在模型训练过程中即时生成受污染的训练输入，并使用多目标优化技术来实现对主任务和后门任务的高准确性。研究人员还提出了如何规避任何已知防御措施的盲目攻击，并提出了新的防御措施。

May, 2020

输入空间到特征表示的无感后门攻击

本文提出了一种新颖的隐形后门攻击方法，该方法通过将触发器模式视为一种特殊噪声并以伯努利分布生成参数，从而在不影响正常输入的情况下利用训练集合并夹杂恶意信息，并考虑对多种最新防御措施的效果验证。

May, 2022

在能力受限情况下发起强大的后门攻击

本研究探讨了在能力限制内实施黑盒后门攻击的可能性，通过设计后门触发器，攻击者可以在没有参与训练过程或了解目标模型结构的情况下作为图像注释者或供应商从事此类攻击。实验结果表明，我们的方法在黑盒场景中实现了高攻击成功率，并逃过了最先进的后门防御。

Apr, 2023

具有可视、语义、样本特异性和兼容触发器的强韧后门攻击

本文提出了一种名为VSSC-trigger的嵌入稳定扩散模型的新方法，使用文本触发器和良性图像生成对比度适当的图像，并解决了之前的不可见触发器在实际运用时出现的可见扭曲问题。

Jun, 2023

一种双重隐蔽后门：从空间和频率角度

本文提出了一种名为DUBA的双重隐蔽后门攻击方法，该方法同时考虑了触发器在时域和频域中的隐蔽性，以实现理想的攻击性能并确保强大的隐蔽性。通过在干净图像中嵌入触发器图像的高频信息，采用傅里叶变换和离散余弦变换在频域中混合毒害图像和干净图像，并采用一种新的攻击策略来进一步提高攻击性能和隐蔽性。对四个数据集上的流行图像分类器进行了广泛评估，结果表明DUBA在攻击成功率和隐蔽性方面明显优于现有的后门攻击方法。

Jul, 2023

通过奇异值分解的隐形后门攻击

本文提出了一种名为DEBA的隐形后门攻击方法，通过奇异值分解（SVD）在训练阶段将隐形后门嵌入模型中，导致在特定触发条件下表现出预定义的恶意行为，实验证明DEBA方法在攻击效果、感知质量和抵抗防御措施方面表现出高度有效性和鲁棒性。

Mar, 2024

基于语义特征的隐形后门攻击

提出了一种新颖的后门攻击方法，通过使用预训练的受害模型从干净图像中提取低级和高级语义特征，并基于通道注意力生成与高级特征相关联的触发模式，然后使用编码器模型生成受污染的图像，同时维持对后门防御的鲁棒性，实验结果表明，该攻击方法在三个知名图像分类深度神经网络上取得了高攻击成功率，同时具有很好的隐秘性。

May, 2024