大规模重温对抗训练
将对抗训练应用于 ImageNet,并提出了如何将对抗训练成功扩展到大型模型和数据集的建议,发现对抗训练能增加对单步攻击方法的鲁棒性,单步攻击方法比多步攻击方法更难以传递,使其成为发动黑盒攻击的最佳选择。研究还揭示了 “标签泄漏” 效应,因为对抗样本构建过程使用真实标签,模型可以学习利用构建过程的规律,使经过对抗训练的模型在对抗示例上表现比正常示例更好。
Nov, 2016
本文提出了一种技术,能够将深度学习分类器的防御性能从较小的前馈神经网络拓展到更广泛的网络结构,同时采用非线性随机投影的方式进行训练,并通过级联模型进一步提高分类器的鲁棒性能。在 MNIST 和 CIFAR 数据集上进行实验,证明了该方法在可证明的抗干扰错误率上有着明显的提升。
May, 2018
提出了第一个系统性的通用的重新训练框架,可以在对抗性攻击的情况下提高任意学习算法的鲁棒性,并且是先前方法中更广泛的对抗模型的一类;该框架能够最小化对抗风险的最优上界,同时扩展该结果以考虑逃避攻击的近似值,从而显著提高抵抗逃避攻击的鲁棒性,而不会显著影响整体准确性的实验评估也证实了这一点。
Apr, 2016
探索对抗训练的极限,发现了通过结合更大的模型、Swish/SiLU 激活函数和模型权重平均化可以训练出强健模型,同时在 CIFAR-10 和 CIFAR-100 数据集上有了大幅度的提升。
Oct, 2020
通过回收在更新模型参数过程中计算的渐变信息,提出了一种消除生成对抗样本开销的自由对抗训练算法,这个算法在 CIFAR-10 和 CIFAR-100 上达到了与 PGD 对抗训练相当的稳健性,其相比于自然训练的额外成本微不足道,并且可以比其他强对抗训练方法快 7 ~ 30 倍。使用单个带 4 个 P100 GPU 的工作站和 2 天运行时间,我们可以训练出针对大规模 ImageNet 分类任务的稳健模型,其对 PGD 攻击的准确率仍可保持在 40% 左右。
Apr, 2019
本文提出一种新的方法,通过 Oracle-Aligned Adversarial Training (OA-AT) 的方式来提高神经网络对抗攻击的鲁棒性,可以在大的扰动(如 L-inf bound 为 16/255 时)达到最先进的性能,同时在标准边界(8/255)也胜过现有的防御机制。
Oct, 2022
本文提出了一种 Bilateral Adversarial Training 方法,使用一步定向攻击生成对抗样本来训练一个抗攻击性更强的神经网络,实验结果表明该方法对于对抗性攻击的鲁棒性有显著提升。
Nov, 2018