数据增强是否导致正边界?
本研究通过实验检验了数据增强对神经网络、支持向量机和逻辑回归模型的影响,发现它可以帮助模型更好地泛化,在处理不平衡数据分类问题时效果显著。其中一个机理是通过促进数据的差异性,使得机器学习模型能够将数据的变化与标签关联起来,从而提高了模型的泛化能力。
Apr, 2023
本文提出了一种名为对抗数据增强(A-DA)的新方法,将数据增强与对抗学习相结合,通过额外的分类器对不同类型的增强进行分类,使得网络能够生成能够欺骗分类器的说话者嵌入,从而提升模型对于增强变化的鲁棒性和泛化能力。在 VoxCeleb 和 CN-Celeb 数据集上的实验证明了我们提出的 A-DA 方法在匹配和不匹配的测试条件下均优于标准数据增强方法,展示了其对于声学变化的卓越鲁棒性和泛化能力。
Feb, 2024
数据增强(DA)对模型在图像分类任务中的性能具有关键影响,然而,最近的研究表明,DA 的影响可以高度依赖于类别:达到最佳的平均准确率会显著损害个别类别准确率,如在 ImageNet 上可降低 20%。本研究通过使用更高质量的多标签注释系统地对受影响的类别进行分类,发现大部分类别具有固有的模糊性、共现性或细粒度差异,而 DA 会控制模型对紧密相关类别的偏好。通过基于该框架的简单类别条件的增强策略,我们改善了负面影响类别的性能。
Dec, 2023
在这篇论文中,我们挑战了传统数据增强方法的有效性,并表明经过更多时间的微调可以抵消数据增强的效果。我们还展示了零和少量数据生成方法通过对话代理(如 ChatGPT 或 LLama2)可以提高性能,从而总结出这种形式的数据增强仍然有效,即使传统方法不起作用。
Feb, 2024
本文介绍了数据增广的 DAC 与 DA-ERM 算法,通过使用 CIFAR-100 和 WideResNet 进行实验,证明 DAC 具有更高的效率和更好的性能。
Feb, 2022
数据增强可以增强计算机视觉模型的泛化能力,但可能引入偏差,不均匀地影响类别准确性。我们的研究扩展了这一调查,通过随机裁剪考察了数据增强在不同数据集上的类别特定偏差,包括那些与 ImageNet 不同的数据集。我们使用 ResNet50、EfficientNetV2S 和 SWIN ViT 评估了这一现象,发现残差模型显示了类似的偏差效果,而视觉变换器表现出更高的稳健性或不同的动态变化。这表明在模型选择上需要一种细致入微的方法,强调偏差缓解。我们还改进了 “数据增强稳健性侦查” 方法,以更高效地管理数据增强引起的偏差,显著减少了计算需求(只需训练 112 个模型而不是 1860 个,减少了 16.2 倍),同时仍能捕捉到重要的偏差趋势。
Mar, 2024
本文探究了数据增强技术在视觉强化学习中的有效性,研究数据增强的相关特征对样本效率的影响并提出了新的操作方法 Random PadResize 和循环增强(Cycling Augmentation)以提高样本利用效率。在 DeepMind 控制套件和 CARLA 驾驶模拟器上的广泛评估表明,与先前的最先进方法相比,我们的方法实现了更好的样本效率。
May, 2023
模型自适应数据增强(MADAug)是一种通过训练数据增强策略网络来向模型教授何时学习何事的方法,旨在优化泛化性能。MADAug 通过模型自适应策略在训练阶段选择每个输入图像的增强操作,构建逐步优化的数据增强课程。在多个图像分类任务中,MADAug 在性能上超过或与其他基线方法相媲美,并且在所有类别中都能带来改进,特别是对于难分类的类别。此外,MADAug 的策略在转移到细粒度数据集时表现更好,逐渐引入越来越大的扰动,并自然地形成一个从简单到困难的课程。
Sep, 2023
本研究提出了一个称为 Data Augmentation Optimized for GAN (DAG) 的框架,用于在 GAN 训练中使用增强数据来改善原始分布的学习,通过理论分析表明该方法有效地利用增强数据来提高鉴别器和生成器的学习,并在自然图像和医疗图像数据集上证明了 DAG 的有效性和优越性。
Jun, 2020