缓解宽神经网络病态尖锐度的规范化方法
通过数学分析和实验证明,在深度网络中引入标准化层(例如批量标准化,层标准化)有利于优化并促进泛化,同时对于包含标准化的一类神经网络,伴随权值衰减的标准化可以鼓励梯度下降到达稳定边缘,并且对于这种情况,可以确定梯度下降的流动轨迹。
Jun, 2022
本文研究了 Fisher 信息矩阵以及其在深度神经网络中的特性,发现其存在尺度依赖性,具有病态的特征值谱,本研究提供了 FIM 和其变体的统一视角,以便更深入地理解大规模深度神经网络对学习的作用。
Oct, 2019
本文提出了一种与 BN 层等价的神经网络下具有一致性的、刻画了梯度的度量标准和对应的优化算法,该算法利用该标准对训练进行正则化,获得了与原始 SGD 相比较显著的性能提升。
Jan, 2021
利用矩阵流形的几何性质,我们提出了一种自动优化方法,对神经网络的归一化参数进行优化。通过层次化的权重归一化以限制利普希茨常数并增强梯度的可靠性,使训练后的网络适用于控制应用。通过初始化网络和根据初始化网络的 2-2 增益对数据进行归一化,我们的方法首先对网络进行初始化。然后,所提出的算法基于高维球面上的指数映射来进行更新。给定一个更新方向(如负内腔梯度),我们提出了两种不同的方式来确定下降的步长。第一种算法利用目标函数沿着组合球面流形上定义的更新曲线进行的自动微分。利用方向二阶导数信息,无需显式构造海森矩阵。第二种算法利用架构感知的主导次数极小化框架进行神经网络的优化。通过这些新进展,所提出的方法避免了手动调优和学习率的调度,从而为优化归一化神经网络提供了自动化的流程。
Dec, 2023
该研究使用 Fisher 核的角度探索 Batch Normalization 的优化,提出了一种新的 Mixture Normalization 方法,通过 CIFAR-10 和 CIFAR-100 实验验证能够有效加速深度神经网络模型的训练
Jun, 2018
本研究探讨了 Sharpness-Aware Minimization (SAM) 优化算法中 normalization 组件对于优化效果的影响,发现它在稳定算法和漂移的最小值连续谱上都发挥着重要作用,这使得 SAM 算法具有很好的鲁棒性。
May, 2023
深度神经网络训练初期对损失函数的局部曲率有巨大影响。随机梯度下降(SGD)在训练早期隐含地惩罚了 Fisher 信息矩阵的迹,并且这种隐式的正则化方法会显著提高泛化能力。
Dec, 2020
尽管进行了广泛的研究,但超参数化神经网络为何能够泛化的根本原因仍然不清楚。本研究通过理论和实证研究指出,对于两层 ReLU 网络,(1)平坦确实意味着泛化;(2)存在不泛化的最平坦模型,锐度最小化算法无法泛化;(3)最令人惊讶的是,存在不泛化的最平坦模型,但锐度最小化算法仍然可以泛化。我们的结果表明,锐度与泛化之间的关系微妙地依赖于数据分布和模型架构,锐度最小化算法不仅通过最小化锐度来实现更好的泛化。这需要寻找超参数化神经网络泛化的其他解释。
Jul, 2023
该论文讨论了深度神经网络训练中的内部协变量漂移问题,并通过在模型架构内加入标准化方法及在每个训练 mini-batch 的操作中进行标准化,解决了此问题,在 Image Classification 上取得了优秀的表现。
Feb, 2015
本文研究了对小部分参数进行扰动的 Sharpness-aware minimization (SAM) 的性能,并通过实验结果证明,只操作正规化处理中几乎不占比例的仿射变换参数能比全局扰动得到更好的效果。
Jun, 2023