足够好的组合数据增强
该研究提出了一种简单的数据增强方法 SeqMix,用于鼓励神经模型针对序列问题的组合行为,该方法可以使神经网络捕获自然语言中的组合特征,旨在提高机器翻译和语义分析等任务的性能。
Nov, 2020
数据增强方法在预训练 seq2seq 模型中对于复合泛化很有效,但仅在从正确分布中进行采样时。从均匀分布中进行采样的表现几乎与从测试分布中采样相当,并且明显优于从训练分布中采样的先前方法。我们进一步进行实验证明了这种情况发生的原因和这种数据增强方法带来的好处。
Jan, 2024
通过引入一种称为组成结构学习者的生成模型,该研究提出了一种更强大的数据重组方法,用于对先前的黑盒神经模型进行组成数据增强,并使得具有对自然语言变异和新颖元素组合的通用性的复杂语义分析任务的性能达到了新的最优状态。
Dec, 2021
通过利用大规模语言模型如 ChatGPT,我们探索了基于提示的数据增强方法,用于产生合成的平行语料库,比较了三种不同提示的方法,并使用两个评估指标来衡量所生成的合成数据的多样性。这种方法无需额外的模型训练成本,与后向翻译等其他增强方法相比,提高了未增强基线的 0.68 BLEU 分数。
Jul, 2023
通过创建独特的数据集,评估现有多标签文本分类模型对复杂概念的组合泛化能力,在此基础上引入了数据增强方法,利用两种创新的文本生成模型提高分类模型对组合泛化的能力。实验证明,该数据增强方法显著提升了分类模型在我们的基准测试中的组合泛化能力,两种生成模型均超过了其他文本生成基准。
Dec, 2023
本研究针对基于标记序列的命名实体识别任务,设计并比较了数据增强技术的效果。通过在生物医学和材料科学领域的两个数据集(i2b2-2010 和 MaSciP)上进行实验,我们表明简单的增强技术可以提高循环模型和基于 Transformer 模型的性能,尤其是对于小训练集的情况。
Oct, 2020
通过语义扰动和特定领域词汇替换生成合成示例,并添加数值和定量推理新任务,以改进生物医学临床试验中自然语言推理模型的鲁棒性,结合多任务学习和 DeBERTa 结构,相较于原始语言模型在 NLI4CT 2024 基准上取得了显著的性能改进。
Apr, 2024
本研究针对面向任务对话系统中语言理解的数据增强问题,提出了基于序列到序列生成的数据增强框架来提高模型的性能,该框架利用训练数据中某个话语的同义替代品来增强数据,将多样性排名纳入话语表示中,生成多样性增加的话语,实验证明在仅有数百个话语的情况下,在 Airline Travel Information System 数据集和 Stanford Multi-turn,Multidomain Dialogue 数据集上都取得了显著的 6.38 和 10.04 分数提高。
Jul, 2018