本研究提出了友好对抗训练 (FAT) 的新方法,其中通过提前停止最严格的对抗数据搜索算法,即早停止的 PGD,来最小化损失并利用自信的对抗数据更新当前模型,理论上可以通过对抗风险的上限来证明,实验证明不需要以自然泛化为代价也可以实现对抗强度。
Feb, 2020
本文通过实验研究快速对抗训练的行为并显示其成功的关键在于从过度拟合弱攻击中恢复。我们进一步扩展了这一发现以改善快速对抗训练,展示了与强对抗训练相比更优异的鲁棒性准确性以及更短的训练时间。
Jun, 2020
通过在嵌入空间进行单步扰动生成和扰动初始化的研究,我们提出了一种快速对抗训练(FAT)方法,以改善模型在无同义词感知情况下的鲁棒性,实验证明 FAT 显著提高了 BERT 模型在各种攻击下的鲁棒性。
Jan, 2024
本文研究对抗样本攻击机器学习模型并提出一种新的攻击方法,证明最先进的对抗训练方法无法同时获得对 $\ell_2$ 和 $\ell_\infty$ 范数的健壮性,提出可能的解决方案及其局限性。
May, 2019
通过使用快速梯度符号方法(FGSM)来作为对抗样本的构造方法,使得对抗训练的代价不比标准训练更高,而且 FGSM 对抗训练与 PGD 对抗训练效果相当。最后,我们还研究了 FGSM 对抗训练的 “灾难性过拟合” 失败模式。
Jan, 2020
通过 FW-AT 理论框架提出一种新的对抗训练算法 - FW-AT-Adapt,它使用简单的扭曲度量来调整训练中的攻击步数,从而提高效率而不影响鲁棒性。与其他单步方法相比,FW-AT-Adapt 在多步 PGD-AT 的鲁棒性与训练时间上提供了最小的损失。
Dec, 2020
该研究论文探讨了对抗性样本及训练,以及如何生成更强的对抗性样本以提高鲁棒性,介绍了集成对抗性训练技术,并表明在 ImageNet 数据集上应用该技术可以显著提高模型的鲁棒性。
May, 2017
针对对抗样本的防御,如对抗训练,通常针对单个干扰类型(例如小的 l∞- 噪声),对于其它类型的干扰,这些防御没有保障,甚至会增加模型的脆弱性。我们的目标是了解这种鲁棒性取舍背后的原因,并训练同时对多种扰动类型具有鲁棒性的模型。
Apr, 2019
通过对敌对学习及攻击的深入探究,我们发现在敌对性训练的模型中,用微小的随机噪声扰动部分攻击样本能够破坏其误导性预测,为此我们提出了一种有效的防御方法,是通过制造更加有效的防御扰动方法,利用敌对训练降低了地面真实的局部 Lipschitzness,同时攻击所有类别,将误导的预测转换为正确的预测,这种方法在经验实验证明有效。
Jun, 2021
本文提出了一种名为 FGSM-PGK 的方法,它使用先前的训练过程中高质量的对抗扰动来生成正样本引导的对抗初始化以及使用不同的衰减率平均不同模型权重的先验引导的集成快速对抗训练方法以提高对抗性能,从而解决了 catastrophic overfitting 问题。
Apr, 2023