大型神经语言模型的对抗性训练

Apr, 2020

Adversarial Training for Large Neural Language Models

Xiaodong Liu, Hao Cheng, Pengcheng He, Weizhu Chen, Yu Wang...

TL;DR研究表明，对神经语言模型进行敌对预训练可以提高其泛化性和鲁棒性，提出了 ALUM 算法，该算法在所有阶段均对敌对训练进行了全面研究，并在广泛的 NLP 任务中显著提高了模型性能。

Abstract

generalization and robustness are both key desiderata for designing machine learning methods. Adversarial training can enhance robustness,

adversarial pre-training nlp generalization robustness alum

发现论文，激发创造

对抗性训练对语言模型的稳健性和泛化能力的影响

本文比较了几种对抗训练语言模型的不同方法，包括预训练数据增强，输入空间扰动和嵌入空间扰动，发现输入空间扰动或预训练数据增强可以提高鲁棒性，而使用嵌入空间扰动可以显著提高泛化性。通过神经元的语言相关性分析表明，泛化性的提高是由于 “更加专业化” 的神经元。这是第一篇对对抗训练语言模型生成不同对抗示例方法进行深度定性分析的工作。

Nov, 2022

通过对抗训练来改善神经语言模型

使用对抗训练机制可以更好地规范神经语言模型中的过度拟合问题，增加嵌入向量的多样性并提高在机器翻译领域的性能。

Jun, 2019

FreeLB: 自然语言理解增强型对抗训练

本文提出了一种新的对抗性训练算法 FreeLB，它通过在单词嵌入中添加对抗性扰动并在不同输入样本周围的区域内最小化结果对抗风险，推广了嵌入空间中的更高不变性。实验证明，这种方法能够提高自然语言理解和常识推理任务中 Transformer 模型的性能。

Sep, 2019

在连续攻击中，基于线性语言模型的高效对抗训练

通过在 LLM 的连续嵌入空间中计算对抗攻击来提高对离散攻击的鲁棒性，我们提出了一种快速的对抗训练算法 (C-AdvUL)，通过对对抗行为数据集上计算的连续嵌入攻击使模型变得鲁棒；我们还引入了 C-AdvIPO，这是一种对抗的 IPO 变体，不需要效用数据进行对抗性鲁棒对齐。我们的实证评估表明，这两个算法显著提高了 LLM 对离散攻击的鲁棒性，并保持了效用。这些结果表明，对连续扰动的鲁棒性可以外推到离散的威胁模型，为大规模对抗训练算法的鲁棒对齐 LLM 提供了一条路径。

May, 2024

适配器与混合层融合增强预训练语言模型对文本分类的对抗性鲁棒性

该研究通过优化 fine-tuned adapters 并使用混合数据训练神经网络，提出了一种在实践中更实用的对抗训练机制，从而在提高模型的泛化性和预测性能的同时避免了传统对抗训练方法中存在的性能下降和计算成本较高的问题。

Jan, 2024

RoAST：通过选择性训练对语言模型进行对抗性扰动的鲁棒性增强

RoAST 是一种简单而有效的微调技术，通过在微调期间引入对抗性扰动，并且在相对重要性上选择性地更新模型参数，以提升语言模型的多角度鲁棒性。通过统一评估微调的语言模型在四个代表性的鲁棒性角度下，我们证明了 RoAST 相对于最先进的微调方法在六种不同类型的语言模型上的有效性，表明其在实践中的有用性。

Dec, 2023

通过手工制作的对抗性例子评估预训练语言模型的容易受攻击性

本文探讨了最新的预训练语言模型（PLMs），包括 GPT-3 和 BERT，存在安全漏洞，使其容易受到对抗性攻击的影响，并提出了一种有效的对抗方法来测试模型的语义相似性并减少其分类质量。

Sep, 2022

通过预测和解释来提高模型的稳健性的对抗训练

本文提出了一种名为 FLAT 的特征级对抗性训练方法，该方法旨在通过正则化全局词重要性分数来调节模型在替换词及其同义词的原始 / 对抗性示例对中的理解保持一致，从而提高模型对预测和解释方面的鲁棒性。

Mar, 2022

生成具有有效性和自然性的大型语言模型对抗样本

基于大型语言模型 (LLMs) 的语言理解和生成能力，我们提出了 LLM-Attack，旨在使用 LLMs 生成既有效又自然的对抗性示例。实验结果表明 LLM-Attack 比基线模型在人类和 GPT-4 评估中表现优异，能够生成通常有效、自然，并保留语义意义、语法正确性和人类不可察觉性的对抗性示例。

Nov, 2023

提高 NLP 模型对抗训练的技术

本研究介绍了一种称为 A2T 的简单和改进的馅饼对抗训练过程，用于 NLP 模型的训练，可以使用更便宜的对手训练出具有鲁棒性的 NLP 模型，提高 NLP 模型的标准准确性、跨领域泛化性和可解释性。

Sep, 2021