对抗性训练中类别稳健性的分析和应用
在这篇论文中,我们发现通过在输入数据分布上进行语义保持的变换可以导致Robust accuracy的大幅度变化,而clean accuracy却没有变化,这表明输入数据分布可以影响神经网络的Adversarial robustness。
Feb, 2019
深度学习领域的对抗攻击和防御是目前研究的活跃领域。本文针对防御方法进行分类,提出了不同的分类方法:通过增加特征向量的类内紧凑性和类间分隔性来提高对抗鲁棒性,减小或移除非鲁棒图像特征来提高对抗鲁棒性。通过这种重新构架话题的方式,提供了新的视角,深入探讨使网络变得更加强健的潜在因素,启发了更多的解决方案。此外,文献中有一些关于对抗防御成本问题和鲁棒性与准确性之间的权衡的论述,但我们提出的分类方法可以解决这些问题。本文提出了几项挑战,以此推动深度学习研究的进一步发展。
Oct, 2019
本文提出两个方法以提高PGD攻击的效率,进而结合现有方法构成一个全新的攻击集合,用于测试对抗鲁棒性,并在50多个模型上进行了测试,发现一些已经被攻破的防御机制。
Mar, 2020
为了建立标准化的对抗性鲁棒性基准,我们考虑了图片分类任务,并引入了允许的模型限制,使用 AutoAttack 进行评估,同时提供80多种鲁棒模型的开源库,分析了鲁棒性对分布偏移、平滑性等性能的影响。
Oct, 2020
本文通过经验研究,在对抗训练的模型中发现了分类的精度和稳健性存在类间差异,包括在通常的训练模型中也存在差异。同时,本文还探讨了解决这种类间差异的可能技术和方法。
Oct, 2020
本文提出了一种多类别增强框架来确保对抗鲁棒性,通过将鲁棒性要求加入损失函数并使用被对抗性破坏的输入进行随机梯度下降步骤,证明在弱训练预测器的情况下可以实现鲁棒性,实验证明对抗鲁棒的多类别增强不仅优于最先进的方法,而且训练所需时间极少。
Mar, 2021
针对当前神经网络抵御对抗攻击的能力较弱的情况,提出了一种新的损失函数,从而提高了19种不同状态下的神经网络的抗攻击能力。同时发现目前不良攻击行为只能诱发少量不同类别的误分类,过于自信或不自信都会影响对模型鲁棒性的准确评估。
May, 2021
本文介绍了在Adversarial Robustness领域中,量化adversarial noise的影响的新概念——Adversarial Severity,并提出了使用基于Hierarchical Attacks的新型防护方法和Hierarchical Curriculum Training训练方法来提高深度模型的Robustness和减轻所有攻击的severity。实验表明,这种防护方法可以使深度模型的Robustness提高1.85%,平均减少攻击的severity 0.17。
Aug, 2021
本文提出了一种最差类对抗训练(worst-class adversarial training)的新框架,利用无悔动态来解决对抗样本攻击的问题,旨在获得在最差情况下表现优异的分类器,并在同时仅牺牲少量平均鲁棒性。作者在各种数据集和网络上的实验证明了该方法超越了现有方法。
Feb, 2023
本文针对现有对抗训练方法在准确性与健壮性之间的固有权衡问题进行研究,指出现有方法在清晰准确率上通常减少超过10%。提出了一种新颖的对抗训练范式,通过引入虚拟类缓解清晰与健壮学习之间的紧张关系,实验结果表明,所提出的DUCAT方法在CIFAR-10、CIFAR-100和Tiny-ImageNet上同时提升了清晰准确性与对抗健壮性,显著改善了现有方法的局限。
Oct, 2024