双边对抗训练:快速训练更健壮的模型以抵御对抗性攻击
将对抗训练应用于ImageNet,并提出了如何将对抗训练成功扩展到大型模型和数据集的建议,发现对抗训练能增加对单步攻击方法的鲁棒性,单步攻击方法比多步攻击方法更难以传递,使其成为发动黑盒攻击的最佳选择。研究还揭示了“标签泄漏”效应,因为对抗样本构建过程使用真实标签,模型可以学习利用构建过程的规律,使经过对抗训练的模型在对抗示例上表现比正常示例更好。
Nov, 2016
通过回收在更新模型参数过程中计算的渐变信息,提出了一种消除生成对抗样本开销的自由对抗训练算法,这个算法在 CIFAR-10 和 CIFAR-100 上达到了与 PGD 对抗训练相当的稳健性,其相比于自然训练的额外成本微不足道,并且可以比其他强对抗训练方法快 7 ~ 30 倍。使用单个带 4 个 P100 GPU 的工作站和 2 天运行时间,我们可以训练出针对大规模 ImageNet 分类任务的稳健模型,其对 PGD 攻击的准确率仍可保持在 40% 左右。
Apr, 2019
通过理论和实验,我们证明了半监督学习可以显著提高对抗性鲁棒性,实验结果表明在 CIFAR-10 上使用 500k 未标记图像,使用自我训练方法可以超过最先进的对抗性鲁棒的准确度。在 SVHN 上,使用模型自身的额外的训练集可以提高 4 至 10 个百分点,与使用额外标签的提高量相差不大。
May, 2019
深度学习领域的对抗攻击和防御是目前研究的活跃领域。本文针对防御方法进行分类,提出了不同的分类方法:通过增加特征向量的类内紧凑性和类间分隔性来提高对抗鲁棒性,减小或移除非鲁棒图像特征来提高对抗鲁棒性。通过这种重新构架话题的方式,提供了新的视角,深入探讨使网络变得更加强健的潜在因素,启发了更多的解决方案。此外,文献中有一些关于对抗防御成本问题和鲁棒性与准确性之间的权衡的论述,但我们提出的分类方法可以解决这些问题。本文提出了几项挑战,以此推动深度学习研究的进一步发展。
Oct, 2019
通过使用快速梯度符号方法(FGSM)来作为对抗样本的构造方法,使得对抗训练的代价不比标准训练更高,而且FGSM对抗训练与PGD对抗训练效果相当。最后,我们还研究了FGSM对抗训练的“灾难性过拟合”失败模式。
Jan, 2020
提出一种更通用的框架,该框架可以推断基于输入图像和目标标签的目标条件扰动,通过学习攻击目标与图像中的语义关系。在MNIST和CIFAR10数据集的广泛实验中,该方法实现了超越单目标攻击模型的优异性能,并以小扰动范数获得高愚弄率。
Jun, 2020
探索对抗训练的极限,发现了通过结合更大的模型、Swish/SiLU激活函数和模型权重平均化可以训练出强健模型,同时在CIFAR-10和CIFAR-100数据集上有了大幅度的提升。
Oct, 2020
本文结合噪声标签和对抗训练,提出了使用梯度下降步数作为样本选择标准来纠正噪声标签,并且确认对抗训练具有强大的平滑效果的抗噪声标签的能力,从而提高自然的准确度,表明对抗训练作为一种通用的鲁棒性学习标准的优越性。
Feb, 2021
本研究使用了知识蒸馏的概念来提高小模型的鲁棒性,旨在改善在存储或计算资源非常有限的情况下对小型模型的有效性。通过使用Robust Soft Label Adversarial Distillation(RSLAD)来训练鲁棒的小学生模型,完全利用了由Robust(对抗训练)大教师模型产生的鲁棒软标签来引导学生的学习。该方法在提高小型模型对AutoAttack等最先进攻击的鲁棒性方面表现出优异的效果,并为对抗鲁棒性蒸馏的Robust Soft标签的重要性提供了一组理解。
Aug, 2021
本文对高维线性回归中采用伪标签和真实或生成的数据进行的双阶段对抗性训练方法进行了理论分析,证明了该方法可通过适当的L2正则化来避免Ridgeless训练中的双下降现象,从而提高模型性能, 并推导了适用于该方法的快捷交叉验证公式。
Jun, 2023