深度神经网络自动复制 / 粘贴攻击的诊断

Nov, 2022

深度神经网络自动复制 / 粘贴攻击的诊断

Diagnostics for Deep Neural Networks with Automated Copy/Paste Attacks

Stephen Casper, Kaivalya Hariharan, Dylan Hadfield-Menell

TL;DR介绍了一种名为 SNAFUE 的自动化方法，可用于识别神经网络的弱点，以找到‘复制 / 粘贴’攻击，利用这种方法可以生成对抗性数据。

Abstract

deep neural networks (DNNs) are powerful, but they can make mistakes that pose significant risks. A model performing well on a test set does not imply safety in deployment, so it is important to have additional tools to understand its flaws. →

deep neural networks adversarial examples imagenet classifier interpretability tools snafue

发现论文，激发创造

深度神经网络中对抗性样本的可迁移性调查

深度神经网络的关键问题之一是对抗性攻击和转移性，考虑到安全性和未来的发展，需要加强对抗性漏洞的防御。

Oct, 2023

深度学习医学图像分析系统的对抗性攻击研究

医学深度学习系统可以被巧妙地构造对抗性例子攻击破坏，难以在实际临床设置中应用，本文发现医学深度学习模型对于对抗攻击比对自然图像模型更脆弱，但医学对抗攻击可以通过简单的检测器容易检测出来，这些发现可作为更可解释和安全的医学深度学习系统设计的依据。

Jul, 2019

针对 DNN 的实用无盒对抗攻击

通过使用少量的样本，本研究提出了三种机制进行训练，其中原型重建是最有效的，生成的对抗性样本可成功地转移至各种图像分类和面部验证模型，最终的应用结果显示我们的方法能够显著降低商业名人识别系统的预测准确率近 15.4％。

Dec, 2020

自然语言处理中深度学习模型的对抗攻击调查

该研究综述了最近针对文本深度神经网络攻击的研究。通过研究，讨论了现有攻击对文本数据不可直接应用的问题，并提出了关于这个话题的建议。

Jan, 2019

深度学习中的对抗性示例：攻击与防御

本文研究深度学习中的对抗样本问题，总结了生成对抗样本的方法，提出了对抗样本的应用分类，并探讨了对抗样本的攻击和防御策略以及面临的挑战和潜在解决方案。

Dec, 2017

攻击遇上可解释性：基于特征的对抗样本检测

该论文提出基于解释性的对抗样本检测技术，通过对神经元的双向对应推断来对抗样本进行检测，实验表明该方法在检测 7 种不同类型的攻击时能够达到 94% 的准确率，误判率为 9.91%。

Oct, 2018

无监督模型解释技术检测对抗样本

本文提出一种使用模型解释方法检测异常样例的无监督方法，并在 MNIST 数据集上展现了该方法高效检测最先进算法所产生的对手样本。

Jul, 2021

CAAD 2018: 迭代性集成对抗攻击

本文提出了一种针对图像分类器集合的迭代式对抗攻击方法，通过此方法，在 CAAD 2018 针对性对抗攻击竞赛中获得第五名，该方法提高了黑匣子对抗攻击的成功率。

Nov, 2018

基于情感分析的新对抗图像检测

本研究提出了一种新的对抗性样本检测器，使用情感分析和神经网络中的隐藏层特征映射来对检测模型进行优化。实验结果表明，该检测器在检测对 ResNet 和 Inception 中性网络在 CIFAR-10、CIFAR-100 和 SVHN 数据集上最新攻击时，优于目前的检测算法，仅具有约 200 万参数，耗时少于 4.6 毫秒。

May, 2023

高效的对抗攻击防御

本文提出了一种基于实践观察的新的防御方法，旨在强化深度神经网络的结构，提高其预测稳定性，从而更难受到针对性攻击，并在多种攻击实验中证明了该方法的有效性，相比其他防御方法具有更好的表现，而且在训练过程中的开销几乎可以忽略不计。

Jul, 2017