自然语言处理数据增强方法综述

ACLMay, 2021

A Survey of Data Augmentation Approaches for NLP

Steven Y. Feng, Varun Gangal, Jason Wei, Sarath Chandar, Soroush Vosoughi...

TL;DR本文全面综述了 NLP 领域数据增强的文献，介绍了方法论、应用、挑战与未来方向，并提供了持续更新的文献列表。

Abstract

data augmentation has recently seen increased interest in nlp due to more work in low-resource domains, new tasks, and the popularity of large-scale neural networks that require large amounts of →

data augmentation nlp training data literature survey challenges

发现论文，激发创造

自然语言处理中有限数据学习的数据增强实证调查

本文旨在系统评估了在有限标注数据情境下的 Natural Language Processing（NLP）中数据增强方法的进展和方法景观，总结了包括标记级别增强、句子级别增强、对抗性增强和隐藏空间增强等多种方法并在 11 个数据集上实验，分析了各种方法的适用情境，对 NLP 有限数据学习的挑战和未来方向进行了讨论。

Jun, 2021

自然语言处理中的数据增强方法综述

本文综述了数据增强的三个类别：释义、加噪和采样，以及在 NLP 中的应用和挑战。

Oct, 2021

神经 NLP 数据增强

本文概述了当前用于自然语言处理模型的数据增强方法的现状和近期发展，着重介绍了基于神经网络和变换器的方法，讨论了数据增强的实际问题、可能的缓解措施以及未来研究的方向。

Feb, 2023

大模型时代的数据增强调查

大型模型驱动的数据增强方法的综述，包括图像增强、文本增强和配对数据增强三个主要类别以及相关的数据后处理技术和应用领域，评估了大型模型驱动的数据增强在不同场景下的成功和限制，并提出了未来研究的挑战和方向。

Jan, 2024

文本分类数据增强调查

本文旨在提高机器学习分类系统的泛化能力，通过对数据进行转换的方式来人工创建训练数据，从而增强数据的多样性，该文章就在「文本分类」中，对数据增强方法及其应用目标做了详细概述与分类，最终针对相关领域，提出建设性思路方向。

Jul, 2021

面向图机器学习的图数据增强：一项调查

本文介绍了现有的图形数据增强方法，并对文献进行了结构化概括。从数据、任务和学习的角度，我们首先介绍了三种不同的分类图形数据增强方法的方法。然后，我们介绍了不同方法和应用的最新进展，并总结了一些未解决的挑战和未来研究的方向。

Feb, 2022

图像数据增强方法综述及未来方向

本文介绍了深度学习算法在计算机视觉任务中的性能表现，以及数据增强技术对应对过拟合问题的应用。在这篇文章中，我们提供了数据增强技术的背景知识和综述，通过对现有的数据增强技术进行分类和比较，从而指导研究者选择适合自己的方法。我们还研究了数据增强技术的综合效果，得出结论可以显著提升图像分类、目标检测和语义分割的性能，我们提供了代码用于结果复现，并探讨了该领域未来的研究方向与挑战。

Jan, 2023

低资源场景下自然语言处理的最近方法综述

本文调查了低资源自然语言处理的相关方法，其中包括数据增强、遥感监视和迁移学习等技术以帮助在需要训练数据较少的情况下提高神经模型的性能，并通过说明这些方法的差异帮助选择适合特定低资源设置的技术。

Oct, 2020

探索代码生成任务的数据增强技术

本文探讨了自然语言处理、迁移学习和数据利用等技术在编程语言任务中的应用以及基于增强方法的模型训练，该方法可使代码翻译和摘要的准确率分别提高至 6.9% 和 7.5%。

Feb, 2023

探索社交媒体语料库上的数据增强方法

本研究探索了数据增强技术对文字分类的影响，使用多种数据增强技术，包括过采样、易用数据增强、反向翻译、灰度缩放以及一种少样本学习的方法 PTE。结果表明，数据增强技术对模型性能只有轻微且不一致的改进，少数同义词替换可以提高模型性能，灰度缩放需要进一步研究，PTE 的表现优于监督学习，尤其是在类别容易分离的情况下。

Mar, 2023