混合样本如何提高模型鲁棒性和泛化性能？

ICLROct, 2020

混合样本如何提高模型鲁棒性和泛化性能？

How Does Mixup Help With Robustness and Generalization?

Linjun Zhang, Zhun Deng, Kenji Kawaguchi, Amirata Ghorbani, James Zou

TL;DR本文提供了理论分析，证明了使用 Mixup 在训练中如何帮助模型的鲁棒性和泛化性，表明最小化 Mixup 损失相当于大致最小化对抗性损失的上界，而对于泛化性我们证明了 Mixup 数据增强对应于一种特定类型的数据自适应正则化，从而减少了过拟合。

Abstract

mixup is a popular data augmentation technique based on taking convex combinations of pairs of examples and their labels. This simple technique has been shown to substantially improve both the →

mixup data augmentation robustness generalization theoretical analysis

发现论文，激发创造

关于 Mixup 正则化

本论文研究数据增广技术 Mixup 的理论基础，指出 Mixup 可被解释为标准经验风险最小化估计器，通过数据转换和随机扰动来实现。该方法在测试时能够提高分类器性能，同时还获得了自校准和有效的正则化效果，以防止过度拟合和过度自信的预测。

Jun, 2020

mixup：超越经验风险最小化

这篇论文提出了一种名为 mixup 的学习原则，通过训练神经网络的凸组合来缓解其记忆和对抗性示例敏感等问题，实验表明 mixup 提高了最先进的神经网络结构的泛化性能，并减少了恶意标签的记忆，增强了对抗性示例的鲁棒性，并稳定了生成对抗网络的训练。

Oct, 2017

使用 Mixup 进行过度训练可能损害泛化能力

通过线性插值的方法创建合成训练样例的 Mixup 是优化 SGD 的深度模型的简单而有效的正则化技术，本文显示 Mixup 训练中的 U 形泛化曲线现象，通过一系列数据集的实验证明了混入嘈杂标签会让 Mixup 在合成数据中出现 U 形泛化曲线现象的理论解释。

Mar, 2023

混合样式训练数据依赖性研究

本文探讨 Mixup 训练范例如何提高分类器对数据结构的适应性与推广性，并通过计算得出 Mixup 最优分类器的封闭形式，证明使用 Mixup loss 训练的分类器可能不会最小化数据的经验损失。此外，我们还给出了 Mixup 训练的广义条件和特定数据集上单一标准训练的数据分类器相同的证明。

Oct, 2021

混合数据增强何时如何提高校准性能

本文通过理论与实验证实，Mixup 数据增强技术可以在高维机器学习模型中提高模型信心值的校准性，同时可减少半监督学习中加入未标注数据所带来的校准性问题。

Feb, 2021

全局混合：通过聚类消除歧义

提出基于全局聚类关系的新型数据扩增方法 ——Global Mixup，其中通过将先前的一阶段扩增过程分解为两阶段，从而将生成虚拟样本的过程与标记过程分离，并根据生成样本的全局关系计算子集对生成样本的标签重新标记，从而在更大的采样空间中生成更可靠的虚拟样本。在 CNN、LSTM 和 BERT 上的五项任务的广泛实验表明，Global Mixup 明显优于现有最新技术基线。

Jun, 2022

混合样本对特征学习的益处

本文研究数据增强方法 Mixup 的原理，从特征学习的角度解释了 Mixup 方法的优越性，并提出在早期训练阶段应用早停止技术以提高训练效果。

Mar, 2023

混合推理：更好地利用混合策略来抵御对抗攻击

这篇论文介绍了用 mixup 在训练深度神经网络以提高泛化性能和模型对抗干扰的鲁棒性，并通过 mixup 推理原则 MI 来利用全局线性行为主动防御对抗攻击，在 CIFAR-10 和 CIFAR-100 数据集上取得了良好效果。

Sep, 2019

Mixup-Transformer：NLP 任务的动态数据增强

本文尝试将最新的数据增强技术 Mixup 应用于自然语言处理领域，特别是在与 NLP 相关的 transformer-based 学习模型中。实验结果表明，Mixup 在预训练的语言模型中是一个独立于领域的数据增强技术，能够显著提高其性能。

Oct, 2020

混合增强与多种插值

在本文中，我们提出了一种称为多重揉混（multi-mix）的简单而有效的扩展方法，它通过从样本对生成多个插值样本，可以比标准 mixup 更好地引导训练过程，从而在泛化性能、鲁棒性和校准度方面超过了各种 mixup 变体和非 mixup 基线。

Jun, 2024