简洁有效的数据增强方法用于组合泛化

Jan, 2024

简洁有效的数据增强方法用于组合泛化

Simple and effective data augmentation for compositional generalization

Yuekun Yao, Alexander Koller

TL;DR数据增强方法在预训练 seq2seq 模型中对于复合泛化很有效，但仅在从正确分布中进行采样时。从均匀分布中进行采样的表现几乎与从测试分布中采样相当，并且明显优于从训练分布中采样的先前方法。我们进一步进行实验证明了这种情况发生的原因和这种数据增强方法带来的好处。

Abstract

compositional generalization, the ability to predict complex meanings from training on simpler sentences, poses challenges for powerful pretrained seq2seq models. In this paper, we show that data augmentation met

compositional generalization data augmentation pretrained seq2seq models mrs distribution

发现论文，激发创造

足够好的组合数据增强

本文提出了一种简单的数据增强协议，旨在为条件和无条件序列模型提供组合归纳偏置。经过测试，该协议可以应用于神经序列到序列模型和 n-gram 语言模型，使得错误率和困惑度均有所降低。

Apr, 2019

多标签文本分类的组合泛化：一种数据增强方法

通过创建独特的数据集，评估现有多标签文本分类模型对复杂概念的组合泛化能力，在此基础上引入了数据增强方法，利用两种创新的文本生成模型提高分类模型对组合泛化的能力。实验证明，该数据增强方法显著提升了分类模型在我们的基准测试中的组合泛化能力，两种生成模型均超过了其他文本生成基准。

Dec, 2023

序列级混合样本数据增强

该研究提出了一种简单的数据增强方法 SeqMix，用于鼓励神经模型针对序列问题的组合行为，该方法可以使神经网络捕获自然语言中的组合特征，旨在提高机器翻译和语义分析等任务的性能。

Nov, 2020

神经序列模型的组合泛化能力再探讨

本文针对基础的 seq-to-seq 模型缺乏组合概括能力的问题，重点讨论了使用一次性原语概括来增强这种能力的方法，发现通过修改训练数据的方式，能够使标准的 seq-to-seq 模型实现接近完美的概括能力表现，并且对该现象进行了详细的实证分析，指出了模型的概括性能对于训练数据的特征非常敏感，因而应该在设计这样的基准测试时仔细考虑训练数据的选择。

Mar, 2022

使用自我训练提高数据到文本生成的组合泛化能力

本文研究了结构化意义表示到自然语言生成中 T5 模型的泛化问题，提出了基于模板的输入表示和基于 fine-tuned BLEURT 的自训练方法来改善模型的泛化和性能，在少样本场景下通过常用的 SGD 和 Weather 基准测试取得了比强基线模型 46% 以上的提升和 73% 以上的错误率降低。

Oct, 2021

利用潜在结构和数据增强来改善组合泛化能力

通过引入一种称为组成结构学习者的生成模型，该研究提出了一种更强大的数据重组方法，用于对先前的黑盒神经模型进行组成数据增强，并使得具有对自然语言变异和新颖元素组合的通用性的复杂语义分析任务的性能达到了新的最优状态。

Dec, 2021

从组合概括的角度重新审视迭代回译

本研究通过迭代回译一种简单而有效的半监督方法，证实其对于复合泛化的基准数据（CFQ 和 SCAN）的性能显著提高，并为理解这一机制提出了课程迭代回译，进一步提高伪并行数据的质量，进一步改善性能。

Dec, 2020

关于利用翻译数据集评估多语言组合泛化能力

通过翻译 MCWQ 数据集，我们证明不同语言具有不同的组合泛化能力，同时多语种模型仍然难以实现跨语言组成泛化。

Jun, 2023

学习重新组合和重新采样数据，用于基于组合性泛化

本文提出了 R＆R，一种学习数据扩充方案，它通过基于原始训练示例的原型生成模型的重组和生成示例的重新采样来实现大类组合泛化，显著提高了普适性，尤其是在对罕见或看不见的子序列需要组合泛化的环境中，如指令跟踪（SCAN）和形态分析（SIGMORPHON 2018）。

Oct, 2020

测量组合泛化能力：一种基于真实数据的综合方法

本研究提出了一种基于分子分散度最大化和原子分散度最小化的方法去构建实际应用的语言理解数据集，并通过分析三个多层次深度学习架构的表现来量化比较这种方法与其他构建复合语言理解测评基准的方法，研究表明现有的机器学习方法在复合语言理解上处于局限性表现，且都表现出惊人强的负相关性，研究结果可应用于构建和优化大规模自然语言处理应用系统。

Dec, 2019