双边对抗训练:快速训练更健壮的模型以抵御对抗性攻击
本文研究了对抗训练在提高图像分类器对白盒攻击的鲁棒性中的有效性,以及在黑盒攻击下的细微差别,并定义了鲁棒性增益的度量指标来衡量其效果。研究表明,尽管对抗训练是提高白盒场景下的鲁棒性的有效方法,但对于更现实的基于决策的黑盒攻击,则可能无法提供如此良好的鲁棒性增益。此外,即使是最小的扰动白盒攻击也可以比常规攻击更快地针对对抗训练过的神经网络收敛。
Jul, 2021
通过对敌对学习及攻击的深入探究,我们发现在敌对性训练的模型中,用微小的随机噪声扰动部分攻击样本能够破坏其误导性预测,为此我们提出了一种有效的防御方法,是通过制造更加有效的防御扰动方法,利用敌对训练降低了地面真实的局部 Lipschitzness,同时攻击所有类别,将误导的预测转换为正确的预测,这种方法在经验实验证明有效。
Jun, 2021
本研究提出了一种新的初始化策略通过随机平滑过程实现单步的快速对抗训练,相较于原来的算法具有更好的稳定性和模型鲁棒性。实验结果表明,该方法可以在更短的训练时间内实现类似 TRADES 方法的模型稳健性。
Oct, 2020
本文介绍了对抗性训练及其在构建鲁棒模型方面的应用,提出了新型白盒和黑盒攻击,即灰盒对抗攻击,提出了一种新颖的模型鲁棒性评估方法,并提出了一种新型的对抗性训练:灰盒对抗训练,其使用模型的中间版本来引导敌手生成更加有效的对抗样本,实验证明此方面的成果优于传统方法。
Aug, 2018
通过研究对抗训练的诊断要素,本文发现了两个有趣的性质:一是在对抗训练中批量归一化可能会阻碍网络获得强鲁棒性,而分别对训练集中的干净图片和对抗图片进行归一化可以提高鲁棒性;二是相较于传统分类任务,对抗学习对更深的网络层级有更高的需求,这一点可以通过增加网络容量来实现。
Jun, 2019
利用目标样本的样式和内容信息以及其类边界信息创建对抗性扰动,将其应用于多任务目标并进行深度监督,提取多尺度特征知识以创建最大分离对手,随后提出最大间隔对抗训练方法,最小化源图像与其对手之间的距离,并最大化对手和目标图像之间的距离,证明与最先进的防御相比,我们提出的对抗训练方法表现出强大的鲁棒性,对自然出现的损坏和数据分布变化具有良好的泛化能力,并保留了模型在干净样本上的准确性。
Jul, 2020
将对抗训练应用于 ImageNet,并提出了如何将对抗训练成功扩展到大型模型和数据集的建议,发现对抗训练能增加对单步攻击方法的鲁棒性,单步攻击方法比多步攻击方法更难以传递,使其成为发动黑盒攻击的最佳选择。研究还揭示了 “标签泄漏” 效应,因为对抗样本构建过程使用真实标签,模型可以学习利用构建过程的规律,使经过对抗训练的模型在对抗示例上表现比正常示例更好。
Nov, 2016
通过回收在更新模型参数过程中计算的渐变信息,提出了一种消除生成对抗样本开销的自由对抗训练算法,这个算法在 CIFAR-10 和 CIFAR-100 上达到了与 PGD 对抗训练相当的稳健性,其相比于自然训练的额外成本微不足道,并且可以比其他强对抗训练方法快 7 ~ 30 倍。使用单个带 4 个 P100 GPU 的工作站和 2 天运行时间,我们可以训练出针对大规模 ImageNet 分类任务的稳健模型,其对 PGD 攻击的准确率仍可保持在 40% 左右。
Apr, 2019
通过对特征统计数据直接进行扰动,我们提出了 Adversarial Batch Normalization (AdvBN) 方法,它是一种单一的网络层,可以在训练期间生成最差情况下的特征扰动。通过在扰动的特征分布上对神经网络进行微调,我们观察到网络对各种不可见的分布偏移,包括样式变化和图像损坏,具有更好的鲁棒性。此外,我们证明我们提出的对抗性特征扰动可以与现有的图像空间数据增强方法互补,从而实现改进性能。
Sep, 2020