现代数据增强的内核理论
本文提出了一种理论框架,证明了数据增强等效于对保持数据分布近似不变的某一群轨道的平均操作,从而能够减少方差,研究了经验风险最小化、指数族、线性回归和某些双层神经网络这些领域中数据增强的应用。
Jul, 2019
该研究论文综述了基于自动机器学习(AutoML)原理的自动数据增强技术,讨论了利用 AutoML 实现数据增强的各种方法,包括数据操作、数据集成和数据合成技术,并对搜索空间设计、超参数优化和模型评估等数据增强子任务进行了广泛的讨论。最后,通过与传统增强方法基于经典方法的最新技术进行全面比较和分析,结果显示目前 AutoML 方法在数据增强方面的性能超过传统方法的最新技术。
Mar, 2024
本文考察了一系列线性变换及其对于过参数化线性回归问题中的岭回归估计量的影响,证实了保留数据标签的变换能够通过扩大训练数据空间来提高估计精度,而混合数据的变换则能够达到一种正则化效果。在此基础上,提出一种根据模型不确定性搜索变换空间的数据增强方案,并在图像和文本数据集上测试,证实了其表现优于已有的 RandAugment 方法及能够达到现有 SoTA 方法的精度。
May, 2020
提出了一种基于贝叶斯公式,利用广义蒙特卡洛期望最大化算法和生成对抗网络的方法,能更好地生成新的标注训练样本,并在 MNIST,CIFAR-10 和 CIFAR-100 的数据集中取得了优于现有数据增强方法和 GAN 模型的分类结果。
Oct, 2017
本文旨在提高机器学习分类系统的泛化能力,通过对数据进行转换的方式来人工创建训练数据,从而增强数据的多样性,该文章就在「文本分类」中,对数据增强方法及其应用目标做了详细概述与分类,最终针对相关领域,提出建设性思路方向。
Jul, 2021
在视觉识别领域,数据增强作为一种关键技术可以增加模型的鲁棒性。本文从理论和实证的角度探讨数据增强的机制,揭示了其在模型鲁棒性中的作用,并通过实验证明了这些技术主要通过中高级游戏交互来刺激。此外,我们的研究还涵盖了多个数据集和各种增强技术,强调了我们的发现在各种情况下的普适性。通过揭示一个简化的代理方法,我们不仅能简化鲁棒性评估,还能深入了解模型游戏交互的固有动态及其与整体系统鲁棒性的关系。这些洞察力为重新评估视觉识别任务中的模型安全性和鲁棒性提供了新的透视。
Sep, 2023
探索数据增强提高模型泛化效果的方法,从领域泛化的角度出发,揭示目前最先进数据增强方法的局限性,并探讨优化方法。结果表明,即使使用最好的数据增强技术,在训练时使用的扭曲操作也不能提供足够的鲁棒性,这表明了增强示例的未被开发的潜力。
Jul, 2020
本文研究了在机器学习分类器的训练中,通过合成数据样本来增强数据的效果。通过数据扭曲和特征空间中的合成过采样两种方法,我们对卷积神经网络,卷积支持向量机和卷积极限学习机分类器在标准的 MNIST 手写数字数据集上进行了实验评估。实验结果表明,在数据空间中合成数据可以更有效地提高性能和缓解过拟合问题。
Sep, 2016