对抗性训练中类别稳健性的分析和应用

May, 2021

对抗性训练中类别稳健性的分析和应用

Analysis and Applications of Class-wise Robustness in Adversarial Training

Qi Tian, Kun Kuang, Kelu Jiang, Fei Wu, Yisen Wang

TL;DR本文研究了对抗训练中的类别鲁棒性问题，提出了一种基于温度的PGD攻击方法，并对训练和推断阶段进行了改进，以降低类别鲁棒性差异。实验结果表明，该方法可以取得更高的攻击成功率。

Abstract

adversarial training is one of the most effective approaches to improve model robustness against adversarial examples. However, previous works mainly focus on the overall robustness of the model, and the in-depth analysis on the role of each class involved in →

发现论文，激发创造

对输入数据分布的敏感性对抗鲁棒性

在这篇论文中，我们发现通过在输入数据分布上进行语义保持的变换可以导致Robust accuracy的大幅度变化，而clean accuracy却没有变化，这表明输入数据分布可以影响神经网络的Adversarial robustness。

Feb, 2019

神经网络对抗鲁棒性的有用分类法

深度学习领域的对抗攻击和防御是目前研究的活跃领域。本文针对防御方法进行分类，提出了不同的分类方法：通过增加特征向量的类内紧凑性和类间分隔性来提高对抗鲁棒性，减小或移除非鲁棒图像特征来提高对抗鲁棒性。通过这种重新构架话题的方式，提供了新的视角，深入探讨使网络变得更加强健的潜在因素，启发了更多的解决方案。此外，文献中有一些关于对抗防御成本问题和鲁棒性与准确性之间的权衡的论述，但我们提出的分类方法可以解决这些问题。本文提出了几项挑战，以此推动深度学习研究的进一步发展。

Oct, 2019

一组不同参数攻击的集成用于可靠评估对抗鲁棒性

本文提出两个方法以提高PGD攻击的效率，进而结合现有方法构成一个全新的攻击集合，用于测试对抗鲁棒性，并在50多个模型上进行了测试，发现一些已经被攻破的防御机制。

Mar, 2020

一个标准的对抗鲁棒性基准测试RobustBench

为了建立标准化的对抗性鲁棒性基准，我们考虑了图片分类任务，并引入了允许的模型限制，使用 AutoAttack 进行评估，同时提供80多种鲁棒模型的开源库，分析了鲁棒性对分布偏移、平滑性等性能的影响。

Oct, 2020

稳健性与公平性可能相互矛盾：基于类别准确性的实证研究

本文通过经验研究，在对抗训练的模型中发现了分类的精度和稳健性存在类间差异，包括在通常的训练模型中也存在差异。同时，本文还探讨了解决这种类间差异的可能技术和方法。

Oct, 2020

一个多分类提升框架，实现快速和可证明的对抗鲁棒性

本文提出了一种多类别增强框架来确保对抗鲁棒性，通过将鲁棒性要求加入损失函数并使用被对抗性破坏的输入进行随机梯度下降步骤，证明在弱训练预测器的情况下可以实现鲁棒性，实验证明对抗鲁棒的多类别增强不仅优于最先进的方法，而且训练所需时间极少。

Mar, 2021

探索健壮神经网络的误分类以增强对抗攻击

针对当前神经网络抵御对抗攻击的能力较弱的情况，提出了一种新的损失函数，从而提高了19种不同状态下的神经网络的抗攻击能力。同时发现目前不良攻击行为只能诱发少量不同类别的误分类，过于自信或不自信都会影响对模型鲁棒性的准确评估。

May, 2021

对抗性严重性的分层评估

本文介绍了在Adversarial Robustness领域中，量化adversarial noise的影响的新概念——Adversarial Severity，并提出了使用基于Hierarchical Attacks的新型防护方法和Hierarchical Curriculum Training训练方法来提高深度模型的Robustness和减轻所有攻击的severity。实验表明，这种防护方法可以使深度模型的Robustness提高1.85％，平均减少攻击的severity 0.17。

Aug, 2021

在对抗训练中提高最劣鲁棒性

本文提出了一种最差类对抗训练（worst-class adversarial training）的新框架，利用无悔动态来解决对抗样本攻击的问题，旨在获得在最差情况下表现优异的分类器，并在同时仅牺牲少量平均鲁棒性。作者在各种数据集和网络上的实验证明了该方法超越了现有方法。

Feb, 2023

对抗训练的新范式：通过虚拟类打破准确性与健壮性之间的固有权衡

本文针对现有对抗训练方法在准确性与健壮性之间的固有权衡问题进行研究，指出现有方法在清晰准确率上通常减少超过10%。提出了一种新颖的对抗训练范式，通过引入虚拟类缓解清晰与健壮学习之间的紧张关系，实验结果表明，所提出的DUCAT方法在CIFAR-10、CIFAR-100和Tiny-ImageNet上同时提升了清晰准确性与对抗健壮性，显著改善了现有方法的局限。

Oct, 2024