我们提出了一种基于随机噪声生成器的简单而有效的数据增强方法,该方法可以扰动输入问题和上下文的单词嵌入,同时保持其语义不变,从而显著提高了 QA 模型的性能。在五个不同的目标域中,使用我们的词嵌入扰动训练的 QA 模型的表现明显优于基线 DA 方法和使用超过 240K 个人工生成 QA 问答对训练的模型。
May, 2021
本文提出了一种使用 deobfuscation 和 CW2V 嵌入的强健分类管道,用于检测 Facebook 帖子是否请求参与(例如点赞)。在针对有意和无意的对抗文本扰动方面,CW2V 嵌入的强健性优于基于字符 ngram 的嵌入,其分类结果在扰动下的 AUC 从 0.70 降至 0.67,而字符 ngram 嵌入的分类结果从 0.76 降至 0.64。
Feb, 2022
本文提出了一种基于扰动的自监督注意力机制来指导注意力学习,以解决传统模型普遍专注于高频词且需要大量标记数据的问题,在三个文本分类任务上实验结果证明了该方法的有效性。
May, 2023
本文研究基于深度学习的文本分类模型(CNN、LSTM 和 BERT)在面对有意义但与最终性能无关的输入扰动(如标点符号和停用词)时的表现,发现包括 BERT 在内的这类模型都很敏感,特别是对于输入扰动的删除尤其受影响。
Jan, 2022
使用对抗训练机制可以更好地规范神经语言模型中的过度拟合问题,增加嵌入向量的多样性并提高在机器翻译领域的性能。
Jun, 2019
本文介绍了使用随机扰动来对抗深度学习模型的攻击的解决方案,包括随机拼写纠正、随机同义词替换和随机删除单词等防御方法。这些方法成功地将被攻击的模型的准确性恢复到攻击之前的水平。
探究数据增广方法在 NLP 中的效果和可泛化性,通过三个二进制文本匹配分类任务的大规模实验发现,随机文本扰动作为数据增广能给神经分类模型的测试集性能带来正面和负面的影响,具体取决于模型是否足够训练原始训练例子,但这与是否同时或分别应用五个随机文本编辑操作无关,研究强烈暗示随机文本扰动的效果任务特定,而不是普遍积极的。
Sep, 2022
本文提出了两个新模型,利用无监督学习改进词向量表示方法,得到噪声更少的词向量表示,这是通过利用深度前馈神经网络滤波器来强化有意义的信息,减弱噪声得到的,实验结果表明,过滤后的词向量表示比原始词向量更有效。
Oct, 2016
本文介绍了一种新的数据增强技术 —— 上下文增强,使用双向语言模型预测单词位置上各个单词,将其替换为预测出的单词增强原句子,同时使用带标签的模型改进以确保模型增强句子不破坏标签状态,并在六种不同的文本分类任务中实验证明该方法可以改善基于卷积或循环神经网络的分类器。
May, 2018
本文提出通过引入随机合成的少量噪音来改善机器翻译中源文本字符级别波动的鲁棒性,从而提高对拼写错误等变异的覆盖率。作者表明,通过在训练时使用一些较为简单的合成噪音,可以实现对常见噪音(例如 Wikipedia 编辑日志中的修正)的鲁棒性,同时不会降低在规范文本上的表现。
Feb, 2019