大模型时代的数据增强调查
本文旨在提高机器学习分类系统的泛化能力,通过对数据进行转换的方式来人工创建训练数据,从而增强数据的多样性,该文章就在「文本分类」中,对数据增强方法及其应用目标做了详细概述与分类,最终针对相关领域,提出建设性思路方向。
Jul, 2021
数据增强是一系列通过操作现有数据样本生成高质量人工数据的技术,利用数据增强技术可以显著提高人工智能模型在涉及稀缺或不平衡数据集的任务中的适用性,从而大大提高模型的泛化能力。本文提出了一个更具启发性的分类法,该分类法涵盖了不同常见数据形式的数据增强技术,并通过一种统一的归纳方法对这些方法进行了分类。
May, 2024
本文概述了当前用于自然语言处理模型的数据增强方法的现状和近期发展,着重介绍了基于神经网络和变换器的方法,讨论了数据增强的实际问题、可能的缓解措施以及未来研究的方向。
Feb, 2023
本文系统地综述了不同的图像数据增强方法,提出了分类学,分析了这些方法的优点和局限性,以及在三个典型的计算机视觉任务上所做的大量实验,包括语义分割,图像分类和物体检测。最后,我们讨论了数据增强面临的挑战以及未来的研究方向,以提出一些有用的研究指导。
Apr, 2022
该研究论文综述了基于自动机器学习(AutoML)原理的自动数据增强技术,讨论了利用 AutoML 实现数据增强的各种方法,包括数据操作、数据集成和数据合成技术,并对搜索空间设计、超参数优化和模型评估等数据增强子任务进行了广泛的讨论。最后,通过与传统增强方法基于经典方法的最新技术进行全面比较和分析,结果显示目前 AutoML 方法在数据增强方面的性能超过传统方法的最新技术。
Mar, 2024
本文从转换类型和方法的角度系统地回顾了现有的人脸数据增强研究,特别关注于基于深度学习的方法,尤其是生成式对抗网络。研究结果表明,这些方法为丰富人脸训练集并提高其质量提供了更有效的工具,并提出了评价它们的指标及未来的挑战。
Apr, 2019
本文介绍了深度学习算法在计算机视觉任务中的性能表现,以及数据增强技术对应对过拟合问题的应用。在这篇文章中,我们提供了数据增强技术的背景知识和综述,通过对现有的数据增强技术进行分类和比较,从而指导研究者选择适合自己的方法。我们还研究了数据增强技术的综合效果,得出结论可以显著提升图像分类、目标检测和语义分割的性能,我们提供了代码用于结果复现,并探讨了该领域未来的研究方向与挑战。
Jan, 2023