极端误校准与对抗鲁棒性的错觉

Feb, 2024

Extreme Miscalibration and the Illusion of Adversarial Robustness

Vyas Raina, Samson Tan, Volkan Cevher, Aditya Rawal, Sheng Zha...

TL;DR深度学习自然语言处理（NLP）模型容易受到对抗性攻击，而测试时的温度缩放可提高真正的鲁棒性。

Abstract

deep learning-based natural language processing (NLP) models are vulnerable to adversarial attacks, where small perturbations can cause a

deep learning natural language processing adversarial attacks robustness test-time temperature scaling

发现论文，激发创造

扩展对抗训练以应对大扰动界限

本文提出一种新的方法，通过 Oracle-Aligned Adversarial Training (OA-AT) 的方式来提高神经网络对抗攻击的鲁棒性，可以在大的扰动（如 L-inf bound 为 16/255 时）达到最先进的性能，同时在标准边界（8/255）也胜过现有的防御机制。

Oct, 2022

通过与对抗鲁棒性的关系来提高校准

该论文研究神经网络的对抗强度和校准之间的联系，并提出了 Adversarial Robustness based Adaptive Label Smoothing (AR-AdaLS) 方法，以提高模型校准和鲁棒性。该方法可应用于单个模型和集成模型，可在数据偏移情况下实现更好的校准结果。

Jun, 2020

对抗性样本的（不）可避免性

该研究提出了一个确定深度学习模型标签更改是否合理的框架，并且定义了一个自适应的鲁棒性损失，使用导出的经验公式，开发了相应的数据增强框架和评估方法，证明了其对确定性标签下的一阶最近邻分类的维持一致性，并提供了实证评估结果。

Jun, 2021

通过预测和解释来提高模型的稳健性的对抗训练

本文提出了一种名为 FLAT 的特征级对抗性训练方法，该方法旨在通过正则化全局词重要性分数来调节模型在替换词及其同义词的原始 / 对抗性示例对中的理解保持一致，从而提高模型对预测和解释方面的鲁棒性。

Mar, 2022

大型语言模型中的对抗攻击与防御：旧与新的威胁

过去十年来，人们对神经网络的鲁棒性进行了广泛的研究，但这个问题依然没有得到很好的解决。在这篇论文中，我们提出了改进新方法的鲁棒性评估和减少错误评估的第一组先决条件，同时指出了面向开源模型中恶意内容生成的嵌入空间攻击作为另一个可行的威胁模型。最后，我们通过一个最近提出的防御方法进行演示，展示了在没有针对大型语言模型的最佳实践的情况下，过高估计新方法的鲁棒性的容易性。

Oct, 2023

自然语言处理中对抗性防御和鲁棒性的调查

综述了最近几年针对 NLP 中深度神经网络面对对抗干扰的鲁棒性不足和易受攻击的挑战，提出了一种新的分类方法，介绍了不同的对抗防御方法和其在训练中作为正则化机制的应用，并指出了深度神经网络的脆弱性和对其进行防御面临的挑战。

Mar, 2022

攻击对抗性攻击作为一种防御

通过对敌对学习及攻击的深入探究，我们发现在敌对性训练的模型中，用微小的随机噪声扰动部分攻击样本能够破坏其误导性预测，为此我们提出了一种有效的防御方法，是通过制造更加有效的防御扰动方法，利用敌对训练降低了地面真实的局部 Lipschitzness，同时攻击所有类别，将误导的预测转换为正确的预测，这种方法在经验实验证明有效。

Jun, 2021

平衡对抗训练：在 NLP 模型中平衡浮躁与顽固之间的权衡

研究表明传统的对抗性训练方法在提高一个模型对于非真实标签的输入的识别能力时，可能会使其更加容易对真实标签的对抗性样本产生误判。因此，本文提出了一种基于对比学习的平衡对抗性训练方法，旨在提高模型对于既不改变真实标签，也不改变模型分类结果的对抗性样本的识别准确性。

Oct, 2022

对抗训练的规范不可知鲁棒性

本文研究对抗样本攻击机器学习模型并提出一种新的攻击方法，证明最先进的对抗训练方法无法同时获得对 $\ell_2$ 和 $\ell_\infty$ 范数的健壮性，提出可能的解决方案及其局限性。

May, 2019

理解对抗训练与噪声标签的交互作用

本文结合噪声标签和对抗训练，提出了使用梯度下降步数作为样本选择标准来纠正噪声标签，并且确认对抗训练具有强大的平滑效果的抗噪声标签的能力，从而提高自然的准确度，表明对抗训练作为一种通用的鲁棒性学习标准的优越性。

Feb, 2021