图像分类中的网络解释欺骗

ICCVDec, 2018

Fooling Network Interpretation in Image Classification

Akshayvarun Subramanya, Vipin Pillai, Hamed Pirsiavash

TL;DR本文提出了一种对抗性噪声网络攻击方法，有效地误导了深度神经网络，同时也改变了网络决策的解释算法，并引入一种控制条件测试神经网络解释算法准确性的方法，以促进更健壮的神经网络解释工具发展。

Abstract

deep neural networks have been shown to be fooled rather easily using adversarial attack algorithms. Practical methods such as adversarial patche

deep neural networks adversarial attack adversarial patches interpretation algorithms network's decision making process

发现论文，激发创造

欺骗自动监控摄像机：对抗性贴片攻击人员检测

本文介绍了一种针对具有高度内类变异的待攻击目标，即人体，生成对抗贴片的方法，并且通过实验表明，我们的系统能显著降低人体检测器的准确性，同时还在实际场景中能够进行攻击。

Apr, 2019

通过对抗模型操纵欺骗神经网络解释

本研究通过对神经网络解释方法进行对抗模型操纵，检验了其稳定性，并提出了两种欺骗类型 —— 被动和主动。研究结果指出，利用我们的模型欺骗方法，目前最先进的解释器都能轻松被骗过去。因此，神经网络解释方法的稳定性是开发出具有鲁棒性和可靠性的神经网络解释方法的重要标准。

Feb, 2019

适当的网络可解释性有助于分类的对抗鲁棒性

通过在 MNIST、CIFAR-10 和 Restricted ImageNet 上进行实验，本文在理论上证明了防止预测侵蚀性对抗攻击导致解释差异的正确解释度量是很困难的，并开发了一种仅基于促进稳健解释的解释敏感的防御方案。与对抗训练方法相比，在对大扰动攻击的抵抗中，本文的防御方法实现了稳健分类和稳健解释，表现优于最先进的对抗训练方法。

Jun, 2020

深度网络的简单黑盒对抗扰动

研究表明，即使没有内部知识，对深度卷积神经网络进行黑盒攻击并制造对抗性样本是可行的，这暴露了深度神经网络的弱点，为设计安全的网络提供了检验。

Dec, 2016

针对优化位置的对抗性贴片的对抗训练

提出了一种可通过物理方式应用于图像中的明显但具有对抗性的矩形贴片，并利用对抗训练的方式来增强深度神经网络对对抗贴片的鲁棒性，这种训练不会降低网络的分类准确率。

May, 2020

物体隐藏器：面向物体检测器的对抗性贴片攻击

该研究关注深度神经网络的安全性问题，着重研究针对目标检测算法的对抗攻击方法，通过生成特定的对抗补丁实现攻击，提出的两种算法均可有效地、通用地攻击最新的目标检测模型。此外，参加了阿里巴巴的天池对抗挑战，并在 1701 对抗团队中获得了前七名。

Oct, 2020

语义图像分割的对抗性样本

本文探讨了机器学习和深度神经网络在语义分割任务上遭受对抗性干扰的问题，证实了对抗性攻击对该任务也具有显著影响，可以通过不可察觉的对抗性扰动诱导深度神经网络对某一类别像素的错误分类而几乎不影响该类别以外像素的分类。

Mar, 2017

利用对抗交通标志欺骗真实汽车

该研究主要关注基于神经网络算法的分类器受到对抗性图像攻击的问题，研究了在实际生产环境下分类器遭到对抗性攻击的可能性，并提供了一个验证生产等级交通标志的对抗性攻击的流程。

Jun, 2019

少数派报告防御：对抗性贴片防御

本文提出了一种基于部分遮挡图像的防御方法，可在 CIFAR-10、Fashion MNIST 和 MNIST 数据集上提供对一定大小区块攻击的安全保障。

Apr, 2020

关于基于补丁的对抗攻击在语义分割问题上的可行性和普适性

本研究通过简单的案例研究，在模拟和实际生活中证明了补丁攻击可用于改变分割网络的输出。通过一些例子和网络复杂性的研究，我们还证明了在给定大小的补丁攻击中可以生成的可能输出图的数量通常小于它们影响的区域或在实际应用中应该攻击的区域。我们将证明，基于这些结果，大多数基于补丁的攻击在实践中不可能是通用的，即它们不能生成任意输出图或者如果可以，它们的空间范围明显小于补丁的感受野。

May, 2022