集成边界的近似对抗检测
本文介绍了一种利用深度学习神经网络中 Bayesian 不确定性估计和密度估计的方法,可以实现对于对抗样本的检测,具有很好的泛化性能,并在标准分类任务上取得了 85-93% 的 ROC-AUC 表现。
Mar, 2017
提出了一种新的集成方法,用于检测和分类最新攻击算法生成的对抗样本,包括 DeepFool 和 C&W,该方法通过训练集成成员对随机良性样本的分类误差较低同时在训练分布之外的样本上最小化一致性来工作。结果表明该方法能够抵抗白盒和黑盒攻击,并且在 MNIST 数据集上表现良好。
Dec, 2017
本文提出了一种针对图像分类器集合的迭代式对抗攻击方法,通过此方法,在 CAAD 2018 针对性对抗攻击竞赛中获得第五名,该方法提高了黑匣子对抗攻击的成功率。
Nov, 2018
本文提出了一种基于实践观察的新的防御方法,旨在强化深度神经网络的结构,提高其预测稳定性,从而更难受到针对性攻击,并在多种攻击实验中证明了该方法的有效性,相比其他防御方法具有更好的表现,而且在训练过程中的开销几乎可以忽略不计。
Jul, 2017
将对抗性攻击表示为可训练函数,使用神经网络模拟理想攻击过程,并降低对抗训练为攻击网络和防御网络之间的数学博弈,同时在此设置中获得了对抗性训练的收敛速率。
Jul, 2023
提出了一种新颖的对抗检测和修正方法,利用自动编码器和基于 KL 散度的自定义损失函数实现分类器的预测和重构实例之间的比较,该方法是无监督的、易于训练的,并不需要关于基础攻击的任何知识。在 MNIST 和 Fashion-MNIST 上,检测器几乎完全中和了像 Carlini-Wagner 或 SLIDE 这样的强大攻击,在攻击袭击者可以完全访问分类模型但无法访问防御情况下,对 CIFAR-10 仍然非常有效。我们展示了我们的方法仍然能够检测到对抗性例子,在攻击者对模型和防御都有充分了解的白盒攻击情况下并研究了攻击的鲁棒性。该方法非常灵活,还可以用于检测常见的数据损坏和扰动,从而对模型表现产生负面影响。我们在 CIFAR-10-C 数据集上介绍了这种能力。
Feb, 2020
本文讨论了黑盒子设置下图像分类的对抗性样本问题,并针对 Boundary Attacks 提出了一种基于偏差抽样的新方法,该方法通过图像频率、区域掩码和代理梯度三种偏差来提高攻击效率,并在 ImageNet 数据集上进行了深入评估。最终表明,这些偏差的结合能够显著提高黑盒攻击的效率,并在对 Google Cloud Vision API、以及强防御模型的攻击中都表现出色。
Dec, 2018
本文研究基于深度神经网络的音频处理模型容易受到对抗攻击的问题,提出了在激活空间中应用异常模式检测技术来检测对抗性样本,并可以在不降低对良性样本性能的情况下检测出两种最新的对抗攻击,AUC 最高可达 0.98。
Feb, 2020