RoAST：通过选择性训练对语言模型进行对抗性扰动的鲁棒性增强

EMNLPDec, 2023

RoAST：通过选择性训练对语言模型进行对抗性扰动的鲁棒性增强

RoAST: Robustifying Language Models via Adversarial Perturbation with Selective Training

Jaehyung Kim, Yuning Mao, Rui Hou, Hanchao Yu, Davis Liang...

TL;DRRoAST 是一种简单而有效的微调技术，通过在微调期间引入对抗性扰动，并且在相对重要性上选择性地更新模型参数，以提升语言模型的多角度鲁棒性。通过统一评估微调的语言模型在四个代表性的鲁棒性角度下，我们证明了 RoAST 相对于最先进的微调方法在六种不同类型的语言模型上的有效性，表明其在实践中的有用性。

Abstract

fine-tuning pre-trained language models (lms) has become the de facto standard in many NLP tasks. Nevertheless, fine-tuned lms are still p

fine-tuning lms robustness adversarial perturbation roast

发现论文，激发创造

ROSE：针对预训练语言模型的强韧性选择性微调

本文提出了一种称为 ROSE 的新颖的微调方法，该方法通过选择性更新参数，过滤无价值和非鲁棒性更新的参数，在下游自然语言处理任务中实现对抗鲁棒性的显着提高，并可以轻松地融入现有的微调方法中进一步提高其对抗鲁棒性。

Oct, 2022

预训练语言模型应如何微调以提高对抗攻击鲁棒性？

针对预训练语言模型的敌对性攻击，提出了一种基于信息理论的对抗性微调方法（Robust Informative Fine-Tuning），强制模型在整个微调过程中保留预训练模型所学习的特征，并在情感分析和自然语言推理等多种 NLP 任务中的各种攻击中显著优于现有技术。

Dec, 2021

多集合免疫接种：跨多个挑战集评估模型的稳健性

探讨语言模型对输入扰动的敏感性以及通过不同训练策略来提高模型性能和鲁棒性的方法，通过在 Tabular-NLI 任务中的实例验证了该模型可对抗不同的扰动而不降低准确性。

Nov, 2023

对抗性训练对语言模型的稳健性和泛化能力的影响

本文比较了几种对抗训练语言模型的不同方法，包括预训练数据增强，输入空间扰动和嵌入空间扰动，发现输入空间扰动或预训练数据增强可以提高鲁棒性，而使用嵌入空间扰动可以显著提高泛化性。通过神经元的语言相关性分析表明，泛化性的提高是由于 “更加专业化” 的神经元。这是第一篇对对抗训练语言模型生成不同对抗示例方法进行深度定性分析的工作。

Nov, 2022

通过预测和解释来提高模型的稳健性的对抗训练

本文提出了一种名为 FLAT 的特征级对抗性训练方法，该方法旨在通过正则化全局词重要性分数来调节模型在替换词及其同义词的原始 / 对抗性示例对中的理解保持一致，从而提高模型对预测和解释方面的鲁棒性。

Mar, 2022

大型神经语言模型的对抗性训练

研究表明，对神经语言模型进行敌对预训练可以提高其泛化性和鲁棒性，提出了 ALUM 算法，该算法在所有阶段均对敌对训练进行了全面研究，并在广泛的 NLP 任务中显著提高了模型性能。

Apr, 2020

评估大型语言模型的对抗性鲁棒性：一项实证研究

对大型语言模型的鲁棒性进行了攻击和评估，并在五项不同的文本分类任务上建立了新的鲁棒性基准，研究结果对可靠部署语言模型并推动可信人工智能系统的发展具有重要意义。

May, 2024

测试时间调整强化语言模型

大规模语言模型在很多语言任务上取得了最先进的性能。然而，它们在针对对抗性语言示例时失败了，这些句子被精心优化以欺骗语言模型，但对人类来说具有类似的语义意义。我们的方法可以动态地适应输入句子并使用屏蔽词的预测结果，从而修复许多语言对抗攻击，而不需要任何训练。在两个流行的句子分类数据集上进行的可视化和实证结果表明，我们的方法能够修复超过 65% 的对抗性语言攻击。

Oct, 2023

∞范数的健壮性与更多因素：高效对抗训练技术的实现

本篇论文阐述了对于神经网络存在攻击的情况下，如何通过对抗训练和小样本训练方法，提高模型的鲁棒性。

Dec, 2021

RoChBert：针对中文的鲁棒性 BERT 微调

本文介绍 RoChBERT 框架，利用包含中文音节和字形特征的更全面的对抗图，在微调过程中融合到预训练表示中，通过课程学习和对抗数据增广方法提高预训练语言模型的稳健性且不降低在正常文本上的预测准确率。RoChBERT 的性能优于以往方法，并且容易扩展到各种语言模型上，而且无需放弃预训练模型所需的时间和计算资源。

Oct, 2022