数据增强是否导致正边界？

ICMLMay, 2019

Does Data Augmentation Lead to Positive Margin?

Shashank Rajput, Zhili Feng, Zachary Charles, Po-Ling Loh, Dimitris Papailiopoulos

TL;DR本文通过量化数据增广在经验风险最小化中所起的作用，分析了其对模型的鲁棒性的提升能力，并在对某些模型进行实验后，对数据增广的有效性作出了一定程度的解释。

Abstract

data augmentation (DA) is commonly used during model training, as it significantly improves test error and model robustness. DA artificially expands the training set by applying random noise, rotations, crops, or

data augmentation robustness empirical risk minimizers linear separators nonlinear models

发现论文，激发创造

探究数据增强在不平衡数据中的作用

本研究通过实验检验了数据增强对神经网络、支持向量机和逻辑回归模型的影响，发现它可以帮助模型更好地泛化，在处理不平衡数据分类问题时效果显著。其中一个机理是通过促进数据的差异性，使得机器学习模型能够将数据的变化与标签关联起来，从而提高了模型的泛化能力。

Apr, 2023

对抗数据增强用于鲁棒的说话人验证

本文提出了一种名为对抗数据增强（A-DA）的新方法，将数据增强与对抗学习相结合，通过额外的分类器对不同类型的增强进行分类，使得网络能够生成能够欺骗分类器的说话者嵌入，从而提升模型对于增强变化的鲁棒性和泛化能力。在 VoxCeleb 和 CN-Celeb 数据集上的实验证明了我们提出的 A-DA 方法在匹配和不匹配的测试条件下均优于标准数据增强方法，展示了其对于声学变化的卓越鲁棒性和泛化能力。

Feb, 2024

理解数据增强的有害类级效应

数据增强（DA）对模型在图像分类任务中的性能具有关键影响，然而，最近的研究表明，DA 的影响可以高度依赖于类别：达到最佳的平均准确率会显著损害个别类别准确率，如在 ImageNet 上可降低 20%。本研究通过使用更高质量的多标签注释系统地对受影响的类别进行分类，发现大部分类别具有固有的模糊性、共现性或细粒度差异，而 DA 会控制模型对紧密相关类别的偏好。通过基于该框架的简单类别条件的增强策略，我们改善了负面影响类别的性能。

Dec, 2023

数据增强已死，数据增强万岁

在这篇论文中，我们挑战了传统数据增强方法的有效性，并表明经过更多时间的微调可以抵消数据增强的效果。我们还展示了零和少量数据生成方法通过对话代理（如 ChatGPT 或 LLama2）可以提高性能，从而总结出这种形式的数据增强仍然有效，即使传统方法不起作用。

Feb, 2024

数据增广一致性正则化的样本效率

本文介绍了数据增广的 DAC 与 DA-ERM 算法，通过使用 CIFAR-100 和 WideResNet 进行实验，证明 DAC 具有更高的效率和更好的性能。

Feb, 2022

图像数据增强中的类别特定偏差数据驱动方法

数据增强可以增强计算机视觉模型的泛化能力，但可能引入偏差，不均匀地影响类别准确性。我们的研究扩展了这一调查，通过随机裁剪考察了数据增强在不同数据集上的类别特定偏差，包括那些与 ImageNet 不同的数据集。我们使用 ResNet50、EfficientNetV2S 和 SWIN ViT 评估了这一现象，发现残差模型显示了类似的偏差效果，而视觉变换器表现出更高的稳健性或不同的动态变化。这表明在模型选择上需要一种细致入微的方法，强调偏差缓解。我们还改进了 “数据增强稳健性侦查” 方法，以更高效地管理数据增强引起的偏差，显著减少了计算需求（只需训练 112 个模型而不是 1860 个，减少了 16.2 倍），同时仍能捕捉到重要的偏差趋势。

Mar, 2024

学习更少，学得更好：有效增强对视觉强化学习的样本效率

本文探究了数据增强技术在视觉强化学习中的有效性，研究数据增强的相关特征对样本效率的影响并提出了新的操作方法 Random PadResize 和循环增强（Cycling Augmentation）以提高样本利用效率。在 DeepMind 控制套件和 CARLA 驾驶模拟器上的广泛评估表明，与先前的最先进方法相比，我们的方法实现了更好的样本效率。

May, 2023

自然语言处理中的数据增强方法综述

本文综述了数据增强的三个类别：释义、加噪和采样，以及在 NLP 中的应用和挑战。

Oct, 2021

何时学习什么：模型自适应数据增强课程

模型自适应数据增强（MADAug）是一种通过训练数据增强策略网络来向模型教授何时学习何事的方法，旨在优化泛化性能。MADAug 通过模型自适应策略在训练阶段选择每个输入图像的增强操作，构建逐步优化的数据增强课程。在多个图像分类任务中，MADAug 在性能上超过或与其他基线方法相媲美，并且在所有类别中都能带来改进，特别是对于难分类的类别。此外，MADAug 的策略在转移到细粒度数据集时表现更好，逐渐引入越来越大的扰动，并自然地形成一个从简单到困难的课程。

Sep, 2023

关于生成对抗网络训练中的数据增强

本研究提出了一个称为 Data Augmentation Optimized for GAN (DAG) 的框架，用于在 GAN 训练中使用增强数据来改善原始分布的学习，通过理论分析表明该方法有效地利用增强数据来提高鉴别器和生成器的学习，并在自然图像和医疗图像数据集上证明了 DAG 的有效性和优越性。

Jun, 2020