离散对抗训练实现模型的鲁棒性

EMNLPApr, 2021

Achieving Model Robustness through Discrete Adversarial Training

Maor Ivgi, Jonathan Berant

TL;DR本文提出离散对抗攻击的在线增强方法，使用基于最佳优先搜索和随机抽样的攻击策略来生成对抗性样本，结果表明使用随机抽样方法能够显著提高鲁棒性，而且比之前使用的离线增强方法速度提高了约 10 倍。

Abstract

discrete adversarial attacks are symbolic perturbations to a language input that preserve the output label but lead to a prediction error. While such attacks have been extensively explored for the purpose of evaluating model robustness, their utility for improving robustness has been l

discrete adversarial attacks model robustness online augmentation best-first search random sampling attacks

发现论文，激发创造

集成对抗训练：攻击和防御

该研究论文探讨了对抗性样本及训练，以及如何生成更强的对抗性样本以提高鲁棒性，介绍了集成对抗性训练技术，并表明在 ImageNet 数据集上应用该技术可以显著提高模型的鲁棒性。

May, 2017

攻击对抗性攻击作为一种防御

通过对敌对学习及攻击的深入探究，我们发现在敌对性训练的模型中，用微小的随机噪声扰动部分攻击样本能够破坏其误导性预测，为此我们提出了一种有效的防御方法，是通过制造更加有效的防御扰动方法，利用敌对训练降低了地面真实的局部 Lipschitzness，同时攻击所有类别，将误导的预测转换为正确的预测，这种方法在经验实验证明有效。

Jun, 2021

虚拟对抗性离散扰动一致性训练

通过添加离散噪音的扰动方法，可以更有效地将模型的决策边界推向具有抵抗干扰能力的点，并在半监督文本分类任务和鲁棒性基准测试中，优于其他基于文本编辑、释义或连续噪音的一致性训练基线方法。

Apr, 2021

灰盒对抗训练

本文介绍了对抗性训练及其在构建鲁棒模型方面的应用，提出了新型白盒和黑盒攻击，即灰盒对抗攻击，提出了一种新颖的模型鲁棒性评估方法，并提出了一种新型的对抗性训练：灰盒对抗训练，其使用模型的中间版本来引导敌手生成更加有效的对抗样本，实验证明此方面的成果优于传统方法。

Aug, 2018

动态调节对抗性对手的对抗微调

本文提出了一种简单而有效的基于迁移学习的对抗性训练策略，该策略将对抗样本的负面影响与模型的标准性能分离开来，引入了一种训练友好的对抗攻击算法，同时保持了模型对干净数据的标准性能，从而提高了模型的鲁棒性。

Apr, 2022

A3T：对抗性增强的对抗性训练

本文介绍了一种通过强制表示不变性来提高深度神经网络对抗攻击鲁棒性的方法，并比较其与其他标准对抗训练方法的可行性。

Jan, 2018

通过隐式对抗数据增强提升模型的弹性

通过融入对抗性和反对抗性扰动分布，增强样本的深度特征，适应性调整学习困难以适应每个样本的特征。同时，开发了一种基于元学习的框架，通过引入增强的效果并跳过显式的增强过程，优化分类器。在长尾学习、广义长尾学习、嘈杂标记学习和子种群转移学习等四种常见偏差学习场景中进行了广泛实验，实证结果表明该方法始终达到最先进的性能水平，突显其广泛适应性。

Apr, 2024

对抗训练在对抗鲁棒性方面的最新进展

该研究论文系统地回顾了针对深度学习模型的对抗训练在对抗鲁棒性方面的最新进展，并从三个视角讨论了对抗训练中的泛化问题，同时指出了尚未完全解决的挑战并提出潜在的未来研究方向。

Feb, 2021

通过使用解缠表示进行对抗混合实现野外的稳健性

本文提出一种新的方法来达到对真实世界输入的鲁棒性，该方法利用了分解输入的表示来定义不同的变化因素，并通过对不同图像的表示进行对抗组合生成新的输入图像。我们使用 StyleGAN 模型来证明这一框架的有效性，并通过训练模型对真实世界的变化进行了不变性训练，从而改善了模型的泛化能力，并降低了冗余相关性的影响。

Dec, 2019

对抗性反事实视觉解释

本文提出了一种由扰动攻击变成语义上的有意义的扰动来进行反事实解释的方法，该方法在扰动攻击时使用去噪扩散概率模型以避免高频率和超出分布的扰动，从而使得研究目标模型不受其鲁棒性水平的限制。通过在多个测试平台上的实验验证，我们的反事实解释方法展现出明显的优势。

Mar, 2023