使用 Mixup 实现寻找最优决策边界的可证明收益

ICMLJun, 2023

使用 Mixup 实现寻找最优决策边界的可证明收益

Provable Benefit of Mixup for Finding Optimal Decision Boundaries

Junsoo Oh, Chulee Yun

TL;DR本文研究了一种名为 Mixup 的数据增广技术，发现它可以显著地降低寻找最优决策边界的样本复杂度，而不同的掩蔽 Mixup 风格技术有可能扭曲训练损失和导致其最小化器收敛到考虑测试精度的次优分类器。

Abstract

We investigate how pair-wise data augmentation techniques like Mixup affect the sample complexity of finding optimal decision boundaries in a binary linear classification problem. For a family of data distributio

pair-wise data augmentation sample complexity binary linear classification separability constant mixup training

发现论文，激发创造

混合样式训练数据依赖性研究

本文探讨 Mixup 训练范例如何提高分类器对数据结构的适应性与推广性，并通过计算得出 Mixup 最优分类器的封闭形式，证明使用 Mixup loss 训练的分类器可能不会最小化数据的经验损失。此外，我们还给出了 Mixup 训练的广义条件和特定数据集上单一标准训练的数据分类器相同的证明。

Oct, 2021

关于 Mixup 正则化

本论文研究数据增广技术 Mixup 的理论基础，指出 Mixup 可被解释为标准经验风险最小化估计器，通过数据转换和随机扰动来实现。该方法在测试时能够提高分类器性能，同时还获得了自校准和有效的正则化效果，以防止过度拟合和过度自信的预测。

Jun, 2020

混合样本如何提高模型鲁棒性和泛化性能？

本文提供了理论分析，证明了使用 Mixup 在训练中如何帮助模型的鲁棒性和泛化性，表明最小化 Mixup 损失相当于大致最小化对抗性损失的上界，而对于泛化性我们证明了 Mixup 数据增强对应于一种特定类型的数据自适应正则化，从而减少了过拟合。

Oct, 2020

混合样本对特征学习的益处

本文研究数据增强方法 Mixup 的原理，从特征学习的角度解释了 Mixup 方法的优越性，并提出在早期训练阶段应用早停止技术以提高训练效果。

Mar, 2023

拓展边界：Mixup 对神经崩溃的影响

混合增强是一种数据增强策略，通过训练实例及其标签的凸组合来增强深度神经网络的鲁棒性和校准性。本研究深入探讨了混合增强对深度网络训练数据最后一层激活的影响，发现其激活结果呈现独特的几何配置，揭示了混合增强增强模型校准的机制。同时进行理论分析，证明了对于特征模型不受约束的情况下，基于混合增强损失的分类器形成了一个简单的 ETF 的最优最后一层特征。

Feb, 2024

混合数据增强何时如何提高校准性能

本文通过理论与实验证实，Mixup 数据增强技术可以在高维机器学习模型中提高模型信心值的校准性，同时可减少半监督学习中加入未标注数据所带来的校准性问题。

Feb, 2021

通过子群混合增强数据以提高公平性

通过对小组之间进行配对混合的数据增广方法，改善组间公平性并提高分类性能，特别是针对少数群体的社会偏见问题。

Sep, 2023

选择性混合有助于处理分布转移，但不仅仅因为混合

研究表明，特定样本对之间的非随机选择使训练分布受到影响，并通过与混合无关的方法提高了泛化能力。二元分类中的 Mixup 跨类混合隐含地对数据进行重新采样，从而实现了标签转移的经典解决方案。选择性混合和重新采样方法存在新的等价性，相关的优势可以更好地结合。

May, 2023

利用中点混合在多视角数据中可以实现可证明学习多样性特征

该论文介绍了 Mixup 数据增强技术在图像分类方面的应用，从特征学习的角度解释了其成功的原因，并提供了实验证据支持其理论分析，证明其在处理具备多种特征的分类问题时效果良好。

Oct, 2022

无限类别混淆

本文提出了一种名为 Infinite Class Mixup 的基于分类器混合的新型数据增广策略，通过对每个增广样本定义一个唯一的新分类器，而不是对训练对标签进行混合，使得神经网络能够更好地学习不同数据类之间的线性行为模式，并在多种模型上取得了较好的性能表现。

May, 2023