Aug, 2023

G-Mix: 通向扁平极小值的广义 Mixup 学习框架

TL;DR深度神经网络(DNN)面临着超参数化的挑战,特别是在训练数据有限的情况下。为了增强 DNN 的泛化能力,我们提出了一种名为 Generalized-Mixup 的新学习框架,将 Mixup 和 Sharpness-Aware Minimization(SAM)的优势结合起来进行 DNN 模型训练。理论分析表明,开发的 G-Mix 框架可以增强泛化能力。此外,为了进一步优化 DNN 性能,我们引入了两种新算法:Binary G-Mix 和 Decomposed G-Mix。这些算法根据每个示例的锐度敏感性将训练数据划分为两个子集,以解决 Mixup 中 “流形入侵” 的问题。理论解释和实验结果均表明,所提出的 BG-Mix 和 DG-Mix 算法进一步提高了多个数据集和模型的模型泛化能力,实现了最先进的性能。