基于 Masked 序列到序列生成的条件增强用于方面术语抽取
提出一种名为条件 BERT 上下文增强的有标注句子的新数据增强方法,基于 BERT 的条件掩蔽语言模型,通过替换预测到的更多变化的子词来增加标注的语句的多样性,实验显示该方法可以轻松应用于卷积或循环神经网络分类器中以获得明显的改进。
Dec, 2018
本文介绍了一种新的神经机器翻译数据增强方法,可以在语言内外强制实现更强的语义一致性。结果表明,条件掩蔽语言模型是一种生成上下文相关单词分布的有效技术,并集成了软词替换的思想,以增强数据多样性,加强语义一致性。该方法在四个规模不同的翻译数据集上进行的实验结果,展示了更真实的数据增强和更好的翻译质量,相对于强和最新的工作,我们的方法一致实现了最佳性能,并相对于基线改进了高达 1.90 BLEU 分数。
Sep, 2022
我们提出了一种利用基于变压器的 BERT 模型的填充掩码特性的新型文本增强方法,该方法在句子中迭代遮盖单词并使用语言模型预测替换它们。我们在各种 NLP 任务上测试了我们提出的方法,并发现它在许多情况下都是有效的。我们将我们的结果与现有的增强方法进行了比较,并实验结果表明我们提出的方法显著提高了性能,尤其是在主题分类数据集上。
Jan, 2024
本研究针对面向任务对话系统中语言理解的数据增强问题,提出了基于序列到序列生成的数据增强框架来提高模型的性能,该框架利用训练数据中某个话语的同义替代品来增强数据,将多样性排名纳入话语表示中,生成多样性增加的话语,实验证明在仅有数百个话语的情况下,在 Airline Travel Information System 数据集和 Stanford Multi-turn,Multidomain Dialogue 数据集上都取得了显著的 6.38 和 10.04 分数提高。
Jul, 2018
本研究探讨了在低资源条件下如何使用数据增强技术来提高命名实体识别任务的性能,并比较了简单的掩码语言模型替换和基于句法树变异的数据增强方法,以保持增强后句子的语言连贯性。
Aug, 2022
本篇论文提出了一种基于条件变分自编码器和编码 - 解码 Transformer 模型结合的神经数据增强方法,可以在句子级别捕捉自然语言处理任务的多样性,同时在监督任务上具有更好的泛化性能,实验证明该方法对于强化自然语言处理的下游任务有较好的效果。
May, 2022
应对低资源信息提取的挑战仍然是一个持续存在的问题,由于有限训练示例中固有的信息稀缺性。现有的数据增强方法被认为是潜在的解决方案,但在弱增强(例如同义词增强)和剧烈增强(例如缺乏适当指导的条件生成)之间很难达到平衡。本文提出了一种新的范式,采用目标增强和反向验证,以生成增强的示例,增强了多样性、极性、准确性和连贯性。广泛的实验结果证明了所提范式的有效性。此外,还讨论了已确定的局限性,为未来改进提供了启示。
May, 2024
本文提出了一个名为 Mask-then-Fill 的灵活有效的数据增强框架,可以在保持原有事件结构不变的前提下更灵活地操作文本以生成更加多样化的数据。该方法可以用更多种类的文本替换原有文本,相比现有的方法,它可以替换任意长度的一段文本而非仅单个词或固定长度的文本片段,因此在触发词和参数提取任务中比基线方法表现更好,并在低资源情况下表现尤为强大。我们进一步分析结果显示,该方法在多样性和分布相似性之间达到了良好的平衡。
Jan, 2023
通过使用自适应掩码方法,本论文提出了一种用于细粒度语言学问题的方面级情感分析(ABSA)方法,其可以从给定文本中提取多方面的观点和情感,以提高 ABSA 的准确性和 F1 得分。
Feb, 2024