平衡对抗训练：在 NLP 模型中平衡浮躁与顽固之间的权衡

EMNLPOct, 2022

平衡对抗训练：在 NLP 模型中平衡浮躁与顽固之间的权衡

Balanced Adversarial Training: Balancing Tradeoffs between Fickleness and Obstinacy in NLP Models

Hannah Chen, Yangfeng Ji, David Evans

TL;DR研究表明传统的对抗性训练方法在提高一个模型对于非真实标签的输入的识别能力时，可能会使其更加容易对真实标签的对抗性样本产生误判。因此，本文提出了一种基于对比学习的平衡对抗性训练方法，旨在提高模型对于既不改变真实标签，也不改变模型分类结果的对抗性样本的识别准确性。

Abstract

Traditional (fickle) adversarial examples involve finding a small perturbation that does not change an input's true label but confuses the classifier into outputting a different prediction. Conversely, obstinate

adversarial examples obstinate adversarial training balanced adversarial training contrastive learning

发现论文，激发创造

通过预测和解释来提高模型的稳健性的对抗训练

本文提出了一种名为 FLAT 的特征级对抗性训练方法，该方法旨在通过正则化全局词重要性分数来调节模型在替换词及其同义词的原始 / 对抗性示例对中的理解保持一致，从而提高模型对预测和解释方面的鲁棒性。

Mar, 2022

对抗训练的分割原则

对抗性示例的存在揭示了深度神经网络的基本弱点。我们的主要贡献是一种通用方法，使分类器具有显着的鲁棒性，而其自然准确性的降低仅仅是微小或可忽略的。

Oct, 2023

为强韧性还是为公平：走向对抗训练中的公平性

研究发现，对于一些平衡的数据集，在执行 Adversarial training algorithms 时将出现不同类别的数据准确度和鲁棒性的严重差异，因此提出了一种名为 Fair-Robust-Learning 的框架以解决这种不公平的问题，并在实验中验证了其有效性。

Oct, 2020

通过平衡对抗训练来提高模型的稳健公平性

本文提出了平衡对抗训练（Balance Adversarial Training）方法，用于解决在对抗训练中不同类别间的鲁棒性和准确性存在严重失衡的问题。通过对两种不公平现象进行观察，即不同类别的对抗样本生成难度差异（源类别公平）和生成对抗样本时不同类别存在不公平偏向（目标类别公平），引入适当的攻击强度和均匀分布约束等措施，能够显著提升指标和缓解鲁棒公平问题。

Sep, 2022

对抗性样本的（不）可避免性

该研究提出了一个确定深度学习模型标签更改是否合理的框架，并且定义了一个自适应的鲁棒性损失，使用导出的经验公式，开发了相应的数据增强框架和评估方法，证明了其对确定性标签下的一阶最近邻分类的维持一致性，并提供了实证评估结果。

Jun, 2021

对抗训练对基于不变性的对抗样本的影响

本研究探讨了针对卷积神经网络的不变性敌对样本进行对抗训练的影响，发现在敌对训练时同时使用基于扰动和基于不变性的敌对样本可以取得较高的鲁棒性。

Feb, 2023

极端误校准与对抗鲁棒性的错觉

深度学习自然语言处理（NLP）模型容易受到对抗性攻击，而测试时的温度缩放可提高真正的鲁棒性。

Feb, 2024

对抗训练的规范不可知鲁棒性

本文研究对抗样本攻击机器学习模型并提出一种新的攻击方法，证明最先进的对抗训练方法无法同时获得对 $\ell_2$ 和 $\ell_\infty$ 范数的健壮性，提出可能的解决方案及其局限性。

May, 2019

对抗样本是噪声下测试误差的自然结果

该研究提供了实证和理论证据表明对抗鲁棒性和图像损坏鲁棒性研究项目之间存在紧密联系，从而建议未来的对抗性防御应该考虑评估它们的方法对分布转移的鲁棒性。

Jan, 2019

集成对抗训练：攻击和防御

该研究论文探讨了对抗性样本及训练，以及如何生成更强的对抗性样本以提高鲁棒性，介绍了集成对抗性训练技术，并表明在 ImageNet 数据集上应用该技术可以显著提高模型的鲁棒性。

May, 2017