TAVAT: 基于 Token 的虚拟对抗训练用于语言理解

AAAIApr, 2020

TAVAT: 基于 Token 的虚拟对抗训练用于语言理解

TAVAT: Token-Aware Virtual Adversarial Training for Language Understanding

Linyang Li, Xipeng Qiu

TL;DR本文提出了一种基于标记的虚拟对抗训练方法，该方法在 NLP 任务中引入了生成嵌入空间中扰动的虚拟对抗训练，并使用标记级别的规范化球适当限制这些扰动，实验表明，该方法显著提高了 BERT 和 ALBERT 等预训练模型在多个任务中的性能。

Abstract

Gradient-based adversarial training is widely used in improving the robustness of neural networks, while it cannot be easily adapted to natural language processing tasks since the embedding space is discrete. In natural language processing fields, →

virtual adversarial training nlp embedding space token-level perturbation pre-trained models

发现论文，激发创造

半监督文本分类的对抗训练方法

本文介绍了在文本领域将反对训练和虚拟反对训练应用于使用递归神经网络中的单词嵌入，并在多个基准半监督和纯监督任务上实现了最先进结果。

May, 2016

通过对抗训练来改善神经语言模型

使用对抗训练机制可以更好地规范神经语言模型中的过度拟合问题，增加嵌入向量的多样性并提高在机器翻译领域的性能。

Jun, 2019

文本输入嵌入空间的可解释对抗扰动

该论文针对自然语言处理（NLP）中的对抗训练的方法应用于词嵌入空间进行改进，使其具有可解释性，从而实现在任务执行时的性能提升。

May, 2018

提高 NLP 模型对抗训练的技术

本研究介绍了一种称为 A2T 的简单和改进的馅饼对抗训练过程，用于 NLP 模型的训练，可以使用更便宜的对手训练出具有鲁棒性的 NLP 模型，提高 NLP 模型的标准准确性、跨领域泛化性和可解释性。

Sep, 2021

对抗性训练对语言模型的稳健性和泛化能力的影响

本文比较了几种对抗训练语言模型的不同方法，包括预训练数据增强，输入空间扰动和嵌入空间扰动，发现输入空间扰动或预训练数据增强可以提高鲁棒性，而使用嵌入空间扰动可以显著提高泛化性。通过神经元的语言相关性分析表明，泛化性的提高是由于 “更加专业化” 的神经元。这是第一篇对对抗训练语言模型生成不同对抗示例方法进行深度定性分析的工作。

Nov, 2022

图卷积网络批量虚拟对抗训练

本文基于 graph convolutional networks (GCNs) 提出了 batch virtual adversarial training (BVAT) 的正则化方法，并验证了其在半监督节点分类任务中较好的效果。

Feb, 2019

抵御文本对抗攻击的快速对抗训练

通过在嵌入空间进行单步扰动生成和扰动初始化的研究，我们提出了一种快速对抗训练（FAT）方法，以改善模型在无同义词感知情况下的鲁棒性，实验证明 FAT 显著提高了 BERT 模型在各种攻击下的鲁棒性。

Jan, 2024

虚拟数据增强：一种用于微调预训练模型的稳健通用框架

该论文提出了一种名为 Virtual Data Augmentation（VDA）的数据增强技术，通过基于原始令牌嵌入构建混合多项式来增加语义相关且具有充分多样性的虚拟数据嵌入，其中掩码语言模型保证了语义相关性，高斯噪声提供增强的多样性，并提出了一种规则化训练策略以平衡两个方面，大量实验证明该方法能提高 pre-trained language models 的鲁棒性和减轻对对抗攻击的表现下降。

Sep, 2021

大规模对抗训练用于视觉与语言表示学习

该研究提出了一种基于对抗训练的大规模视觉语言表示学习方法 VILLA，该方法在嵌入空间内进行对抗训练，取得了新的最优性能。

Jun, 2020

AdvAug: 神经机器翻译的鲁棒对抗性增强

本文提出了一种新的神经机器翻译对抗性数据增强方法，称之为 AdvAug，使用虚拟句子的嵌入来训练 NMT 模型，通过实验证明其取得了显著的效果提升。

Jun, 2020