文本分类数据增强调查

Jul, 2021

A Survey on Data Augmentation for Text Classification

Markus Bayer, Marc-André Kaufhold, Christian Reuter

TL;DR本文旨在提高机器学习分类系统的泛化能力，通过对数据进行转换的方式来人工创建训练数据，从而增强数据的多样性，该文章就在「文本分类」中，对数据增强方法及其应用目标做了详细概述与分类，最终针对相关领域，提出建设性思路方向。

Abstract

data augmentation, the artificial creation of training data for machine learning by transformations, is a widely studied research field across machine learning disciplines. While it is useful for increasing a mod

data augmentation machine learning textual classification training data research survey

发现论文，激发创造

数据增强综述

数据增强是一系列通过操作现有数据样本生成高质量人工数据的技术，利用数据增强技术可以显著提高人工智能模型在涉及稀缺或不平衡数据集的任务中的适用性，从而大大提高模型的泛化能力。本文提出了一个更具启发性的分类法，该分类法涵盖了不同常见数据形式的数据增强技术，并通过一种统一的归纳方法对这些方法进行了分类。

May, 2024

大模型时代的数据增强调查

大型模型驱动的数据增强方法的综述，包括图像增强、文本增强和配对数据增强三个主要类别以及相关的数据后处理技术和应用领域，评估了大型模型驱动的数据增强在不同场景下的成功和限制，并提出了未来研究的挑战和方向。

Jan, 2024

面向图机器学习的图数据增强：一项调查

本文介绍了现有的图形数据增强方法，并对文献进行了结构化概括。从数据、任务和学习的角度，我们首先介绍了三种不同的分类图形数据增强方法的方法。然后，我们介绍了不同方法和应用的最新进展，并总结了一些未解决的挑战和未来研究的方向。

Feb, 2022

深度学习中的图像数据增强：综述

本文系统地综述了不同的图像数据增强方法，提出了分类学，分析了这些方法的优点和局限性，以及在三个典型的计算机视觉任务上所做的大量实验，包括语义分割，图像分类和物体检测。最后，我们讨论了数据增强面临的挑战以及未来的研究方向，以提出一些有用的研究指导。

Apr, 2022

自动化机器学习中的数据增强：方法与传统数据增强方法的性能比较

该研究论文综述了基于自动机器学习（AutoML）原理的自动数据增强技术，讨论了利用 AutoML 实现数据增强的各种方法，包括数据操作、数据集成和数据合成技术，并对搜索空间设计、超参数优化和模型评估等数据增强子任务进行了广泛的讨论。最后，通过与传统增强方法基于经典方法的最新技术进行全面比较和分析，结果显示目前 AutoML 方法在数据增强方面的性能超过传统方法的最新技术。

Mar, 2024

自然语言处理中的数据增强方法综述

本文综述了数据增强的三个类别：释义、加噪和采样，以及在 NLP 中的应用和挑战。

Oct, 2021

通过全局增强方法提高短文本分类效果

本文研究了不同的文本扩充方法在分类应用中的影响，通过使用包括社交媒体和新闻文章在内的三个数据集，我们发现基于 Word2vec 的文本扩充是一种可行的选择，并且使用 mixup 可以进一步提高性能，并降低过拟合的影响。同时，通过翻译服务进行往返翻译的效果不如其他方法好，并且成本较高，适用性较差。

Jul, 2019

无增强数据的文本生成数据增强

该文提出一种没有使用特定映射函数构造数据增强数据的方法来解决文本生成任务中的数据增强问题，该方法可以有效地优化并应用于文本生成任务的流行损失函数，收敛速率得到保证，实验结果证明该方法可以达到甚至超过流行的数据增强方法。

May, 2021

数据增强已死，数据增强万岁

在这篇论文中，我们挑战了传统数据增强方法的有效性，并表明经过更多时间的微调可以抵消数据增强的效果。我们还展示了零和少量数据生成方法通过对话代理（如 ChatGPT 或 LLama2）可以提高性能，从而总结出这种形式的数据增强仍然有效，即使传统方法不起作用。

Feb, 2024

Text AutoAugment: 学习文本分类的组合增强策略

Text AutoAugment 是一种数据增强方法，通过贝叶斯优化算法自动寻找最佳组合操作作为增强策略应用于训练数据。该方法显著提高了模型的泛化能力，并在六个基准数据集上表现突出，特别是在低资源和类不平衡情况下，相应的分类准确率平均分别提高了 8.8% 和 9.7%。

Sep, 2021