通过预测和解释来提高模型的稳健性的对抗训练
本文比较了几种对抗训练语言模型的不同方法,包括预训练数据增强,输入空间扰动和嵌入空间扰动,发现输入空间扰动或预训练数据增强可以提高鲁棒性,而使用嵌入空间扰动可以显著提高泛化性。通过神经元的语言相关性分析表明,泛化性的提高是由于 “更加专业化” 的神经元。这是第一篇对对抗训练语言模型生成不同对抗示例方法进行深度定性分析的工作。
Nov, 2022
该研究论文系统地回顾了针对深度学习模型的对抗训练在对抗鲁棒性方面的最新进展,并从三个视角讨论了对抗训练中的泛化问题,同时指出了尚未完全解决的挑战并提出潜在的未来研究方向。
Feb, 2021
研究表明传统的对抗性训练方法在提高一个模型对于非真实标签的输入的识别能力时,可能会使其更加容易对真实标签的对抗性样本产生误判。因此,本文提出了一种基于对比学习的平衡对抗性训练方法,旨在提高模型对于既不改变真实标签,也不改变模型分类结果的对抗性样本的识别准确性。
Oct, 2022
针对预训练语言模型的敌对性攻击,提出了一种基于信息理论的对抗性微调方法(Robust Informative Fine-Tuning),强制模型在整个微调过程中保留预训练模型所学习的特征,并在情感分析和自然语言推理等多种 NLP 任务中的各种攻击中显著优于现有技术。
Dec, 2021
通过在嵌入空间进行单步扰动生成和扰动初始化的研究,我们提出了一种快速对抗训练(FAT)方法,以改善模型在无同义词感知情况下的鲁棒性,实验证明 FAT 显著提高了 BERT 模型在各种攻击下的鲁棒性。
Jan, 2024
深度学习算法在高能物理学领域中越来越受到重视,特别是针对飞行物理观测中标签识别任务的,研究者们正致力于提高模型的稳健性并针对异常数据提出对抗性训练策略以提高模型的鲁棒性。
Mar, 2023
本研究介绍了一种称为 A2T 的简单和改进的馅饼对抗训练过程,用于 NLP 模型的训练,可以使用更便宜的对手训练出具有鲁棒性的 NLP 模型,提高 NLP 模型的标准准确性、跨领域泛化性和可解释性。
Sep, 2021