TreeMix：面向自然语言理解的基于组成结构的数据增强

ACLMay, 2022

TreeMix：面向自然语言理解的基于组成结构的数据增强

TreeMix: Compositional Constituency-based Data Augmentation for Natural Language Understanding

Le Zhang, Zichao Yang, Diyi Yang

TL;DR介绍了一种基于语言组成性的自然语言理解数据增强方法 - TreeMix，在 NLP 的分类任务上表现比现有的方法更好。

Abstract

data augmentation is an effective approach to tackle over-fitting. Many previous works have proposed different data augmentations strategies for nlp, such as noise injection, word replacement, back-translation et

data augmentation compositionality treemix nlp text classification

发现论文，激发创造

序列级混合样本数据增强

该研究提出了一种简单的数据增强方法 SeqMix，用于鼓励神经模型针对序列问题的组合行为，该方法可以使神经网络捕获自然语言中的组合特征，旨在提高机器翻译和语义分析等任务的性能。

Nov, 2020

基于语法的命名实体识别数据增强

本研究探讨了在低资源条件下如何使用数据增强技术来提高命名实体识别任务的性能，并比较了简单的掩码语言模型替换和基于句法树变异的数据增强方法，以保持增强后句子的语言连贯性。

Aug, 2022

神经机器翻译的句法感知数据增强

本文提出了一种新的句法感知数据增强策略，使用输入句子的依存句法树来确定每个句子中单词的选择概率，以有效增强神经机器翻译的翻译性能。实验表明，所提出的数据增强方法可显著提高基于句子独立的方法的翻译性能。

Apr, 2020

SUBS: 组合语义解析的子树替换算法

使用子树替换进行合成数据增强可显著提高模型性能，特别是在 SCAN 和 GeoQuery 上，同时在 GeoQuery 的组成分离上达到了新的 SOTA。

May, 2022

面向低资源语言的依存树变形数据增强

该研究提供基于依赖树的文本增强技术，包括剪裁和旋转，用于增加低资源语言数据集的大小，在词性标注任务中提高了大多数语言的精度。

Mar, 2019

Mixup-Transformer：NLP 任务的动态数据增强

本文尝试将最新的数据增强技术 Mixup 应用于自然语言处理领域，特别是在与 NLP 相关的 transformer-based 学习模型中。实验结果表明，Mixup 在预训练的语言模型中是一个独立于领域的数据增强技术，能够显著提高其性能。

Oct, 2020

AdMix：一种混合采样数据增强方法用于神经机器翻译

本文提出了一种新颖的 NMT 数据增强方法 ——AdMix，将弱离散噪声引入原始句对，生成新的合成训练数据，并将其与原始样本软混合，实验证明，该方法可显著提高翻译效果，特别是与 back-translation 等方法联合使用时，改进效果进一步增强。

May, 2022

TaskMix: 口语意图理解元学习的数据增强

本论文探讨了元学习在传递相关任务的知识方面的研究方向，发现在低任务多样性下，最先进的数据增强方法会恶化过拟合问题；为此，提出了一种称为 TaskMix 的简单方法以缓解过拟合问题和改善性能。

Sep, 2022

足够好的组合数据增强

本文提出了一种简单的数据增强协议，旨在为条件和无条件序列模型提供组合归纳偏置。经过测试，该协议可以应用于神经序列到序列模型和 n-gram 语言模型，使得错误率和困惑度均有所降低。

Apr, 2019

使用 Mixup 增强数据进行句子分类：一项实证研究

本文提出了 Mixup 数据增强方法在句子分类中的应用策略，并在多个基准数据集上进行了实验验证，结果表明该技术是一种有效的、领域无关的数据增强方法，可使 CNN 和 LSTM 模型的预测准确性显著提高。

May, 2019