探究数据增强在不平衡数据中的作用
数据增强(DA)对模型在图像分类任务中的性能具有关键影响,然而,最近的研究表明,DA 的影响可以高度依赖于类别:达到最佳的平均准确率会显著损害个别类别准确率,如在 ImageNet 上可降低 20%。本研究通过使用更高质量的多标签注释系统地对受影响的类别进行分类,发现大部分类别具有固有的模糊性、共现性或细粒度差异,而 DA 会控制模型对紧密相关类别的偏好。通过基于该框架的简单类别条件的增强策略,我们改善了负面影响类别的性能。
Dec, 2023
数据增强可以增强计算机视觉模型的泛化能力,但可能引入偏差,不均匀地影响类别准确性。我们的研究扩展了这一调查,通过随机裁剪考察了数据增强在不同数据集上的类别特定偏差,包括那些与 ImageNet 不同的数据集。我们使用 ResNet50、EfficientNetV2S 和 SWIN ViT 评估了这一现象,发现残差模型显示了类似的偏差效果,而视觉变换器表现出更高的稳健性或不同的动态变化。这表明在模型选择上需要一种细致入微的方法,强调偏差缓解。我们还改进了 “数据增强稳健性侦查” 方法,以更高效地管理数据增强引起的偏差,显著减少了计算需求(只需训练 112 个模型而不是 1860 个,减少了 16.2 倍),同时仍能捕捉到重要的偏差趋势。
Mar, 2024
本文提出了一种名为对抗数据增强(A-DA)的新方法,将数据增强与对抗学习相结合,通过额外的分类器对不同类型的增强进行分类,使得网络能够生成能够欺骗分类器的说话者嵌入,从而提升模型对于增强变化的鲁棒性和泛化能力。在 VoxCeleb 和 CN-Celeb 数据集上的实验证明了我们提出的 A-DA 方法在匹配和不匹配的测试条件下均优于标准数据增强方法,展示了其对于声学变化的卓越鲁棒性和泛化能力。
Feb, 2024
本文提供了对 Mix-based Data Augmentation 在分类,方法,应用及可解释性等方面的全面调查,为该领域的研究人员提供了有用的方向。
Dec, 2022
本研究针对医学图像重建问题,提出了一种数据增强(DA)的方法 MRAugment,通过多项实验证明,在训练数据较少的情况下,MRAugment 能有效地防止过拟合并达到甚至超过目前最新技术水平;而在大量训练数据下,MRAugment 的效果则有所降低。此外,研究结果还表明,DA 方法能提高模型对于测试数据偏移的鲁棒性。
Jun, 2021
本文提出了一种基于领域自适应和自编码器数据增强的方法,用于解决在目标学习任务中对标记训练数据的缺乏以及目标数据集不平衡的问题,实验结果表明该方法在标记样本数量显著较少和目标数据集不平衡的情况下具有优越性。
May, 2023
模型自适应数据增强(MADAug)是一种通过训练数据增强策略网络来向模型教授何时学习何事的方法,旨在优化泛化性能。MADAug 通过模型自适应策略在训练阶段选择每个输入图像的增强操作,构建逐步优化的数据增强课程。在多个图像分类任务中,MADAug 在性能上超过或与其他基线方法相媲美,并且在所有类别中都能带来改进,特别是对于难分类的类别。此外,MADAug 的策略在转移到细粒度数据集时表现更好,逐渐引入越来越大的扰动,并自然地形成一个从简单到困难的课程。
Sep, 2023