数据增强是一系列通过操作现有数据样本生成高质量人工数据的技术,利用数据增强技术可以显著提高人工智能模型在涉及稀缺或不平衡数据集的任务中的适用性,从而大大提高模型的泛化能力。本文提出了一个更具启发性的分类法,该分类法涵盖了不同常见数据形式的数据增强技术,并通过一种统一的归纳方法对这些方法进行了分类。
May, 2024
大型模型驱动的数据增强方法的综述,包括图像增强、文本增强和配对数据增强三个主要类别以及相关的数据后处理技术和应用领域,评估了大型模型驱动的数据增强在不同场景下的成功和限制,并提出了未来研究的挑战和方向。
Jan, 2024
本文介绍了现有的图形数据增强方法,并对文献进行了结构化概括。从数据、任务和学习的角度,我们首先介绍了三种不同的分类图形数据增强方法的方法。然后,我们介绍了不同方法和应用的最新进展,并总结了一些未解决的挑战和未来研究的方向。
Feb, 2022
本文系统地综述了不同的图像数据增强方法,提出了分类学,分析了这些方法的优点和局限性,以及在三个典型的计算机视觉任务上所做的大量实验,包括语义分割,图像分类和物体检测。最后,我们讨论了数据增强面临的挑战以及未来的研究方向,以提出一些有用的研究指导。
Apr, 2022
该研究论文综述了基于自动机器学习(AutoML)原理的自动数据增强技术,讨论了利用 AutoML 实现数据增强的各种方法,包括数据操作、数据集成和数据合成技术,并对搜索空间设计、超参数优化和模型评估等数据增强子任务进行了广泛的讨论。最后,通过与传统增强方法基于经典方法的最新技术进行全面比较和分析,结果显示目前 AutoML 方法在数据增强方面的性能超过传统方法的最新技术。
Mar, 2024
本文综述了数据增强的三个类别:释义、加噪和采样,以及在 NLP 中的应用和挑战。
Oct, 2021
本文研究了不同的文本扩充方法在分类应用中的影响,通过使用包括社交媒体和新闻文章在内的三个数据集,我们发现基于 Word2vec 的文本扩充是一种可行的选择,并且使用 mixup 可以进一步提高性能,并降低过拟合的影响。同时,通过翻译服务进行往返翻译的效果不如其他方法好,并且成本较高,适用性较差。
Jul, 2019
该文提出一种没有使用特定映射函数构造数据增强数据的方法来解决文本生成任务中的数据增强问题,该方法可以有效地优化并应用于文本生成任务的流行损失函数,收敛速率得到保证,实验结果证明该方法可以达到甚至超过流行的数据增强方法。
May, 2021
在这篇论文中,我们挑战了传统数据增强方法的有效性,并表明经过更多时间的微调可以抵消数据增强的效果。我们还展示了零和少量数据生成方法通过对话代理(如 ChatGPT 或 LLama2)可以提高性能,从而总结出这种形式的数据增强仍然有效,即使传统方法不起作用。
Feb, 2024
Text AutoAugment 是一种数据增强方法,通过贝叶斯优化算法自动寻找最佳组合操作作为增强策略应用于训练数据。该方法显著提高了模型的泛化能力,并在六个基准数据集上表现突出,特别是在低资源和类不平衡情况下,相应的分类准确率平均分别提高了 8.8% 和 9.7%。
Sep, 2021