通过对抗训练来改善神经语言模型
本文比较了几种对抗训练语言模型的不同方法,包括预训练数据增强,输入空间扰动和嵌入空间扰动,发现输入空间扰动或预训练数据增强可以提高鲁棒性,而使用嵌入空间扰动可以显著提高泛化性。通过神经元的语言相关性分析表明,泛化性的提高是由于 “更加专业化” 的神经元。这是第一篇对对抗训练语言模型生成不同对抗示例方法进行深度定性分析的工作。
Nov, 2022
本文提出了一种基于生成对抗网络和对抗性训练的正则化方法,可以在神经语言模型中防止过拟合,与常见的对抗性训练方法相比,本方法不需要经过时间的二次反向传播,并且其开销不超过基准方法的 20%。
Nov, 2022
本文提出采用对抗性稳定性训练来提高神经机器翻译 (NMT) 模型的鲁棒性,通过使编码器和解码器在输入和其扰动版本的情况下行为相似,进而提高模型的容错性。在汉英、英德和英法翻译任务中的实验结果表明,该方法不仅可以显著提高强 NMT 系统的翻译品质,而且可以增强 NMT 模型的鲁棒性。
May, 2018
本文提出了一种名为 FLAT 的特征级对抗性训练方法,该方法旨在通过正则化全局词重要性分数来调节模型在替换词及其同义词的原始 / 对抗性示例对中的理解保持一致,从而提高模型对预测和解释方面的鲁棒性。
Mar, 2022
研究表明,对神经语言模型进行敌对预训练可以提高其泛化性和鲁棒性,提出了 ALUM 算法,该算法在所有阶段均对敌对训练进行了全面研究,并在广泛的 NLP 任务中显著提高了模型性能。
Apr, 2020
本文主要介绍了如何使用经过改进的对抗训练方法来解决网络嵌入过程中的过拟合问题,最终取得了较好的模型健壮性和泛化性能,并从节点分类和链接预测两个方面评估了模型的有效性。
Aug, 2019
通过黑盒基于人口的优化算法生成有迷惑性的语义和语法类似的对抗样本,不仅能提高情感分析和文本蕴涵模型的错误率,还能在 20 名人类注释者中得到 92.3% 的标签正确分类。进一步讨论了对抗训练作为一种防御的尝试,但未能产生改进,说明了这种对抗样本的强大和多样性。我们希望此研究能够鼓励研究人员追求提高自然语言域下深度神经网络的鲁棒性。
Apr, 2018
本研究介绍了一种称为 A2T 的简单和改进的馅饼对抗训练过程,用于 NLP 模型的训练,可以使用更便宜的对手训练出具有鲁棒性的 NLP 模型,提高 NLP 模型的标准准确性、跨领域泛化性和可解释性。
Sep, 2021
本文研究一种新的神经机器翻译学习范式,即采用对抗训练模型进行最小化差异的方式来指导模型学习,此模型被命名为 Adversarial-NMT。实验结果表明,Adversarial-NMT 性能显著高于强基线模型,并能够实现更高质量的翻译。
Apr, 2017
基于大型语言模型 (LLMs) 的语言理解和生成能力,我们提出了 LLM-Attack,旨在使用 LLMs 生成既有效又自然的对抗性示例。实验结果表明 LLM-Attack 比基线模型在人类和 GPT-4 评估中表现优异,能够生成通常有效、自然,并保留语义意义、语法正确性和人类不可察觉性的对抗性示例。
Nov, 2023