数据增强作为特征操作
使用数据增强来鼓励模型更喜欢强特征,并且研究其对于特征学习的影响。在测试中,数据增强通常在起初起到反效果的作用,并且较难取代弱特征的强特征学习效果较差。
Apr, 2020
提出了一种基于贝叶斯公式,利用广义蒙特卡洛期望最大化算法和生成对抗网络的方法,能更好地生成新的标注训练样本,并在 MNIST,CIFAR-10 和 CIFAR-100 的数据集中取得了优于现有数据增强方法和 GAN 模型的分类结果。
Oct, 2017
该研究论文综述了基于自动机器学习(AutoML)原理的自动数据增强技术,讨论了利用 AutoML 实现数据增强的各种方法,包括数据操作、数据集成和数据合成技术,并对搜索空间设计、超参数优化和模型评估等数据增强子任务进行了广泛的讨论。最后,通过与传统增强方法基于经典方法的最新技术进行全面比较和分析,结果显示目前 AutoML 方法在数据增强方面的性能超过传统方法的最新技术。
Mar, 2024
本文介绍了一种新的方法,它支持使用相同的梯度算法学习不同的数据操作方案。这种方法基于监督学习和强化学习之间的联系,并调整来自强化学习的现成奖励学习算法,用于联合数据操作学习和模型训练。通过学习文本转换网络和动态适应数据样本重要性来展示数据扩充和数据加权,实验表明所得到的算法明显提高了图像和文本分类的性能。
Oct, 2019
数据增强是一系列通过操作现有数据样本生成高质量人工数据的技术,利用数据增强技术可以显著提高人工智能模型在涉及稀缺或不平衡数据集的任务中的适用性,从而大大提高模型的泛化能力。本文提出了一个更具启发性的分类法,该分类法涵盖了不同常见数据形式的数据增强技术,并通过一种统一的归纳方法对这些方法进行了分类。
May, 2024
本文研究数据增强在卷积神经网络中的隐式规则效应,与显式正则化技术(如权重衰减和 Dropout)相比,数据增强能更易于适应不同的网络结构和训练数据。通过对不同网络架构和训练数据量的消融研究,我们揭示了数据增强的优势,这是长期被忽视的问题。
Jun, 2019
本文研究数据增强在图像分类中的应用,对比了多种增强技术,包括传统的裁剪、旋转和翻转以及使用 GAN 生成不同风格的图像,并提出了一种名为神经增强的方法,通过训练神经网络自学习增强,以提升分类器性能,对该方法在不同数据集上表现的优劣进行了讨论。
Dec, 2017
本文研究了在机器学习分类器的训练中,通过合成数据样本来增强数据的效果。通过数据扭曲和特征空间中的合成过采样两种方法,我们对卷积神经网络,卷积支持向量机和卷积极限学习机分类器在标准的 MNIST 手写数字数据集上进行了实验评估。实验结果表明,在数据空间中合成数据可以更有效地提高性能和缓解过拟合问题。
Sep, 2016