集成对抗训练:攻击和防御
将对抗训练应用于 ImageNet,并提出了如何将对抗训练成功扩展到大型模型和数据集的建议,发现对抗训练能增加对单步攻击方法的鲁棒性,单步攻击方法比多步攻击方法更难以传递,使其成为发动黑盒攻击的最佳选择。研究还揭示了 “标签泄漏” 效应,因为对抗样本构建过程使用真实标签,模型可以学习利用构建过程的规律,使经过对抗训练的模型在对抗示例上表现比正常示例更好。
Nov, 2016
通过对敌对学习及攻击的深入探究,我们发现在敌对性训练的模型中,用微小的随机噪声扰动部分攻击样本能够破坏其误导性预测,为此我们提出了一种有效的防御方法,是通过制造更加有效的防御扰动方法,利用敌对训练降低了地面真实的局部 Lipschitzness,同时攻击所有类别,将误导的预测转换为正确的预测,这种方法在经验实验证明有效。
Jun, 2021
本文研究对抗样本攻击机器学习模型并提出一种新的攻击方法,证明最先进的对抗训练方法无法同时获得对 $\ell_2$ 和 $\ell_\infty$ 范数的健壮性,提出可能的解决方案及其局限性。
May, 2019
本文介绍了对抗性训练及其在构建鲁棒模型方面的应用,提出了新型白盒和黑盒攻击,即灰盒对抗攻击,提出了一种新颖的模型鲁棒性评估方法,并提出了一种新型的对抗性训练:灰盒对抗训练,其使用模型的中间版本来引导敌手生成更加有效的对抗样本,实验证明此方面的成果优于传统方法。
Aug, 2018
通过对对抗样本的数据增广训练神经网络模型,以提高模型的抗干扰性,并发现通过将小型模型构成的集成模型一起进行对抗训练相比使用单个大模型的训练更有效。而重点在于对整个集成模型的对抗训练,而不是只对每个模型进行对抗训练。
Nov, 2018
利用目标样本的样式和内容信息以及其类边界信息创建对抗性扰动,将其应用于多任务目标并进行深度监督,提取多尺度特征知识以创建最大分离对手,随后提出最大间隔对抗训练方法,最小化源图像与其对手之间的距离,并最大化对手和目标图像之间的距离,证明与最先进的防御相比,我们提出的对抗训练方法表现出强大的鲁棒性,对自然出现的损坏和数据分布变化具有良好的泛化能力,并保留了模型在干净样本上的准确性。
Jul, 2020
该研究提出了一个确定深度学习模型标签更改是否合理的框架,并且定义了一个自适应的鲁棒性损失,使用导出的经验公式,开发了相应的数据增强框架和评估方法,证明了其对确定性标签下的一阶最近邻分类的维持一致性,并提供了实证评估结果。
Jun, 2021
本文提出了一种针对图像分类器集合的迭代式对抗攻击方法,通过此方法,在 CAAD 2018 针对性对抗攻击竞赛中获得第五名,该方法提高了黑匣子对抗攻击的成功率。
Nov, 2018