训练集成来检测对抗样本
该研究论文探讨了对抗性样本及训练,以及如何生成更强的对抗性样本以提高鲁棒性,介绍了集成对抗性训练技术,并表明在 ImageNet 数据集上应用该技术可以显著提高模型的鲁棒性。
May, 2017
本文研究了利用多样的专业 CNNs 集成对黑盒对抗实例检测的影响,并加强白盒对抗攻击的生成,证明了不同专业集成的多样性如何减轻黑盒和白盒对抗示例的风险,并通过 MNIST 和 CIFAR-10 等实验证明了使用该集成可以检测大部分已知的黑盒对抗实例,从而显著降低敌人的风险率,但会在一定程度上增加干净样本的风险率。此外,相对于普通 CNN 和普通 CNN 集成,我们展示了集成生成白盒攻击的成功率显著下降,突显了集成中多样性对于开发更健壮模型的有益作用。
May, 2020
通过使用多个专家的集合,其中专业按混淆矩阵定义,我们发现在存在对抗实例的情况下,专家集合能更好地识别和拒绝愚弄实例,通过拒绝机制使系统更加鲁棒,而不是试图以任何代价正确地对抗其进行分类。
Feb, 2017
本文提出了一种针对图像分类器集合的迭代式对抗攻击方法,通过此方法,在 CAAD 2018 针对性对抗攻击竞赛中获得第五名,该方法提高了黑匣子对抗攻击的成功率。
Nov, 2018
本论文提出一种新颖的训练方法和阈值测试策略,以实现对恶意制造的对抗样本的鲁棒检测。在训练中,我们提出了最小化反交叉熵(RCE)的方法,以鼓励深度网络学习更好地区分对抗样本和正常样本的潜在表示。在测试中,我们提出了使用阈值策略作为检测器,以过滤出对抗样本,以实现可靠预测,我们的方法使用标准算法简单实现,与常见的交叉熵最小化相比,几乎没有额外的训练成本。我们将该方法应用于广泛使用的 MNIST 和 CIFAR-10 数据集上的各种攻击方法,并在对抗环境下的所有威胁模型中实现显著的鲁棒预测改进。
Jun, 2017
通过元学习方法构建的双网络框架,旨在解决深度神经网络在遇到少量样本的新对抗攻击时检测精确度低的问题。在 CIFAR-10,MNIST 和 Fashion-MNIST 三个数据集上实验表明,该方法相比于传统的对抗攻击检测方法具有更高的有效性。
Aug, 2019
该论文提出了一种基于生成对抗网络 (GAN) 框架下的新防御机制来对抗黑盒攻击,在经验上表现良好并能与利用梯度下降的集成对抗训练和对抗训练等最先进的方法媲美。
May, 2019