理解归一化层的泛化增益:锐化减少
本研究通过对深度学习模型的多方面度量,特别是模型对输入扰动的敏感性度量,研究了大规模的、过度参数化的神经网络与小规模的夹杂网络的复杂度与泛化之间的紧张关系,并得出结论:训练的神经网络在其训练数据范围内更加鲁棒,这种鲁棒性与泛化能力有关联,而诸如数据扩增和修正线性单元等好的泛化因素会带来更强的鲁棒性。
Feb, 2018
该论文分析了一个简单的2层ReLU网络的训练和泛化,通过对相关内核的特性进行追踪,提出了更紧致的训练速度特征描述和网络大小无关的泛化界限以及对梯度下降训练的广泛平滑函数可学性的证明。
Jan, 2019
本研究通过分析深度神经网络的梯度下降技术实现,提出了控制网络复杂度的隐含规范化方法,并将其归纳为梯度下降算法的内在偏差,说明这种方法可以解决深度学习中过拟合的问题。
Mar, 2019
通过量化 Fisher 信息矩阵确定的参数空间的几何,我们揭示了在深度神经网络中,批标准化作为最后一层标准化方法,对减少 Fisher 信息矩阵导致的病态锐度具有明显的贡献。
Jun, 2019
本文提出了一种与BN层等价的神经网络下具有一致性的、刻画了梯度的度量标准和对应的优化算法,该算法利用该标准对训练进行正则化,获得了与原始SGD相比较显著的性能提升。
Jan, 2021
本研究探讨了 Sharpness-Aware Minimization(SAM) 优化算法中 normalization 组件对于优化效果的影响,发现它在稳定算法和漂移的最小值连续谱上都发挥着重要作用,这使得SAM算法具有很好的鲁棒性。
May, 2023
本文研究了对小部分参数进行扰动的Sharpness-aware minimization (SAM)的性能,并通过实验结果证明,只操作正规化处理中几乎不占比例的仿射变换参数能比全局扰动得到更好的效果。
Jun, 2023
尽管进行了广泛的研究,但超参数化神经网络为何能够泛化的根本原因仍然不清楚。本研究通过理论和实证研究指出,对于两层ReLU网络,(1)平坦确实意味着泛化;(2)存在不泛化的最平坦模型,锐度最小化算法无法泛化;(3)最令人惊讶的是,存在不泛化的最平坦模型,但锐度最小化算法仍然可以泛化。我们的结果表明,锐度与泛化之间的关系微妙地依赖于数据分布和模型架构,锐度最小化算法不仅通过最小化锐度来实现更好的泛化。这需要寻找超参数化神经网络泛化的其他解释。
Jul, 2023
训练大型神经网络时,过拟合的挑战变得日益重要。为解决这一问题,Sharpness-Aware Minimization(SAM)作为一种有希望的训练方法出现,可在存在标签噪声的情况下提高神经网络的泛化性能。然而,对于非线性神经网络和分类任务领域,对SAM工作原理的深入理解仍然较为缺乏。本文通过演示为什么SAM对某种数据模型和两层卷积ReLU网络优于随机梯度下降(SGD),填补了这一空白。我们所研究问题的损失函数景观是非光滑的,因此基于Hessian信息的当前解释对于SAM成功的原因是不充分的。我们的结果解释了SAM的好处,特别是它能防止在早期阶段噪声学习,从而促进更有效的特征学习。在合成数据和真实数据上的实验证实了我们的理论。
Oct, 2023