足够好的组合数据增强

Apr, 2019

Good-Enough Compositional Data Augmentation

Jacob Andreas

TL;DR本文提出了一种简单的数据增强协议，旨在为条件和无条件序列模型提供组合归纳偏置。经过测试，该协议可以应用于神经序列到序列模型和 n-gram 语言模型，使得错误率和困惑度均有所降低。

Abstract

We propose a simple data augmentation protocol aimed at providing a compositional inductive bias in conditional and unconditional sequence models

data augmentation inductive bias sequence models neural models perplexity reduction

发现论文，激发创造

序列级混合样本数据增强

该研究提出了一种简单的数据增强方法 SeqMix，用于鼓励神经模型针对序列问题的组合行为，该方法可以使神经网络捕获自然语言中的组合特征，旨在提高机器翻译和语义分析等任务的性能。

Nov, 2020

简洁有效的数据增强方法用于组合泛化

数据增强方法在预训练 seq2seq 模型中对于复合泛化很有效，但仅在从正确分布中进行采样时。从均匀分布中进行采样的表现几乎与从测试分布中采样相当，并且明显优于从训练分布中采样的先前方法。我们进一步进行实验证明了这种情况发生的原因和这种数据增强方法带来的好处。

Jan, 2024

利用潜在结构和数据增强来改善组合泛化能力

通过引入一种称为组成结构学习者的生成模型，该研究提出了一种更强大的数据重组方法，用于对先前的黑盒神经模型进行组成数据增强，并使得具有对自然语言变异和新颖元素组合的通用性的复杂语义分析任务的性能达到了新的最优状态。

Dec, 2021

利用生成式语言模型进行神经机器翻译的数据增强

通过利用大规模语言模型如 ChatGPT，我们探索了基于提示的数据增强方法，用于产生合成的平行语料库，比较了三种不同提示的方法，并使用两个评估指标来衡量所生成的合成数据的多样性。这种方法无需额外的模型训练成本，与后向翻译等其他增强方法相比，提高了未增强基线的 0.68 BLEU 分数。

Jul, 2023

基于 LM 的文本增强的神经数据到文本生成

通过少量文本样本的文本增强和使用循环一致性作为目标实现弱监督训练范式在数据到文本生成中的有效性。

Feb, 2021

多标签文本分类的组合泛化：一种数据增强方法

通过创建独特的数据集，评估现有多标签文本分类模型对复杂概念的组合泛化能力，在此基础上引入了数据增强方法，利用两种创新的文本生成模型提高分类模型对组合泛化的能力。实验证明，该数据增强方法显著提升了分类模型在我们的基准测试中的组合泛化能力，两种生成模型均超过了其他文本生成基准。

Dec, 2023

命名实体识别简单数据增强分析

本研究针对基于标记序列的命名实体识别任务，设计并比较了数据增强技术的效果。通过在生物医学和材料科学领域的两个数据集（i2b2-2010 和 MaSciP）上进行实验，我们表明简单的增强技术可以提高循环模型和基于 Transformer 模型的性能，尤其是对于小训练集的情况。

Oct, 2020

生成式数据增强提升基于草稿的语义分割

利用生成模型和数据增强方法改进半监督语义分割的性能，生成高质量训练数据，缩小与完全监督分割方法之间的差距。

Nov, 2023

在 SemEval-2024 任务 2 中的 DKE 研究：结合数据增强、生成模型和生物医学知识提高推理鲁棒性

通过语义扰动和特定领域词汇替换生成合成示例，并添加数值和定量推理新任务，以改进生物医学临床试验中自然语言推理模型的鲁棒性，结合多任务学习和 DeBERTa 结构，相较于原始语言模型在 NLI4CT 2024 基准上取得了显著的性能改进。

Apr, 2024

面向对话语言理解的序列到序列数据增强

本研究针对面向任务对话系统中语言理解的数据增强问题，提出了基于序列到序列生成的数据增强框架来提高模型的性能，该框架利用训练数据中某个话语的同义替代品来增强数据，将多样性排名纳入话语表示中，生成多样性增加的话语，实验证明在仅有数百个话语的情况下，在 Airline Travel Information System 数据集和 Stanford Multi-turn，Multidomain Dialogue 数据集上都取得了显著的 6.38 和 10.04 分数提高。

Jul, 2018