通过预测和解释来提高模型的稳健性的对抗训练

AAAIMar, 2022

通过预测和解释来提高模型的稳健性的对抗训练

Adversarial Training for Improving Model Robustness? Look at Both Prediction and Interpretation

Hanjie Chen, Yangfeng Ji

TL;DR本文提出了一种名为 FLAT 的特征级对抗性训练方法，该方法旨在通过正则化全局词重要性分数来调节模型在替换词及其同义词的原始 / 对抗性示例对中的理解保持一致，从而提高模型对预测和解释方面的鲁棒性。

Abstract

neural language models show vulnerability to adversarial examples which are semantically similar to their original counterparts with a few words replaced by their synonyms. A common way to improve model robustness

adversarial training neural language models model robustness flat interpretations

发现论文，激发创造

对抗性训练对语言模型的稳健性和泛化能力的影响

本文比较了几种对抗训练语言模型的不同方法，包括预训练数据增强，输入空间扰动和嵌入空间扰动，发现输入空间扰动或预训练数据增强可以提高鲁棒性，而使用嵌入空间扰动可以显著提高泛化性。通过神经元的语言相关性分析表明，泛化性的提高是由于 “更加专业化” 的神经元。这是第一篇对对抗训练语言模型生成不同对抗示例方法进行深度定性分析的工作。

Nov, 2022

通过对抗训练来改善神经语言模型

使用对抗训练机制可以更好地规范神经语言模型中的过度拟合问题，增加嵌入向量的多样性并提高在机器翻译领域的性能。

Jun, 2019

对抗训练在对抗鲁棒性方面的最新进展

该研究论文系统地回顾了针对深度学习模型的对抗训练在对抗鲁棒性方面的最新进展，并从三个视角讨论了对抗训练中的泛化问题，同时指出了尚未完全解决的挑战并提出潜在的未来研究方向。

Feb, 2021

平衡对抗训练：在 NLP 模型中平衡浮躁与顽固之间的权衡

研究表明传统的对抗性训练方法在提高一个模型对于非真实标签的输入的识别能力时，可能会使其更加容易对真实标签的对抗性样本产生误判。因此，本文提出了一种基于对比学习的平衡对抗性训练方法，旨在提高模型对于既不改变真实标签，也不改变模型分类结果的对抗性样本的识别准确性。

Oct, 2022

预训练语言模型应如何微调以提高对抗攻击鲁棒性？

针对预训练语言模型的敌对性攻击，提出了一种基于信息理论的对抗性微调方法（Robust Informative Fine-Tuning），强制模型在整个微调过程中保留预训练模型所学习的特征，并在情感分析和自然语言推理等多种 NLP 任务中的各种攻击中显著优于现有技术。

Dec, 2021

对抗训练的分割原则

对抗性示例的存在揭示了深度神经网络的基本弱点。我们的主要贡献是一种通用方法，使分类器具有显着的鲁棒性，而其自然准确性的降低仅仅是微小或可忽略的。

Oct, 2023

通过对抗训练实现可解释的计算机视觉模型：揭示鲁棒性和可解释性的关联

通过对深度神经网络进行对抗训练，研究评估其对模型的鲁棒性和解释性的影响，证明了这两个问题之间的相关性。

Jul, 2023

抵御文本对抗攻击的快速对抗训练

通过在嵌入空间进行单步扰动生成和扰动初始化的研究，我们提出了一种快速对抗训练（FAT）方法，以改善模型在无同义词感知情况下的鲁棒性，实验证明 FAT 显著提高了 BERT 模型在各种攻击下的鲁棒性。

Jan, 2024

使用对抗训练改进喷注标记算法的鲁棒性：探索损失表面

深度学习算法在高能物理学领域中越来越受到重视，特别是针对飞行物理观测中标签识别任务的，研究者们正致力于提高模型的稳健性并针对异常数据提出对抗性训练策略以提高模型的鲁棒性。

Mar, 2023

提高 NLP 模型对抗训练的技术

本研究介绍了一种称为 A2T 的简单和改进的馅饼对抗训练过程，用于 NLP 模型的训练，可以使用更便宜的对手训练出具有鲁棒性的 NLP 模型，提高 NLP 模型的标准准确性、跨领域泛化性和可解释性。

Sep, 2021