最小锐度:神经网络的尺度不变参数鲁棒性
本文提出了一种与 BN 层等价的神经网络下具有一致性的、刻画了梯度的度量标准和对应的优化算法,该算法利用该标准对训练进行正则化,获得了与原始 SGD 相比较显著的性能提升。
Jan, 2021
通过提出基于海森矩阵的浅度测量,在深度网络训练中检验了大批量 SGD 最小值确实比小批量 SGD 最小值更锐利,并且我们证明了正同态激活的深度网络的等价关系在参数空间中的商流形结构,并提出了一种具有等价不变性的测量平坦度的方法。
Feb, 2019
最近,对于过参数化模型开发优化算法的兴趣不断增加,因为普遍认为实现泛化需要具有适当偏差的算法。本文针对仅考虑少数尖锐度测量值的文献提出了新的尖锐度测量方法,并证明了这些测量方法的普遍表达性,以及它们如何对模型的参数不变性有着显著的影响。此外,本文还提出了 Frob-SAM 和 Det-SAM 两种特定设计的具体优化框架,并通过大量实验证明了该框架的优势。
Jun, 2024
本文提出了一种自适应尖锐度感知(SAMSON)的方法,通过优化损失值和损失尖锐度来提高神经网络模型对噪音硬件的稳健性,相比现有的尖锐度感知训练方法在无噪声和有噪声的环境下均表现出更好的模型泛化性能和鲁棒性。
Nov, 2022
本论文提出了自适应锐度的概念和相应的泛化界限,并提出了利用该泛化界限的新型学习方法 ASAM。在各种基准数据集上的实验证明,ASAM 显著提高了模型的泛化性能。
Feb, 2021
本文提出了一种几乎不需要额外计算成本的 Sharpness-Aware Training 方法,能减少由超参导致的广义误差,该方法通过 KL 散度实现了一个平滑收敛点,获得了与 SAM 类似的效果,使训练更加高效。
May, 2022
尽管进行了广泛的研究,但超参数化神经网络为何能够泛化的根本原因仍然不清楚。本研究通过理论和实证研究指出,对于两层 ReLU 网络,(1)平坦确实意味着泛化;(2)存在不泛化的最平坦模型,锐度最小化算法无法泛化;(3)最令人惊讶的是,存在不泛化的最平坦模型,但锐度最小化算法仍然可以泛化。我们的结果表明,锐度与泛化之间的关系微妙地依赖于数据分布和模型架构,锐度最小化算法不仅通过最小化锐度来实现更好的泛化。这需要寻找超参数化神经网络泛化的其他解释。
Jul, 2023
神经网络的海森矩阵的最大特征值(或清晰度)是理解其优化动态的关键量。本文研究超定单变量回归的深度线性网络的清晰度。虽然最小化器的清晰度可以任意大,但不可以任意小。事实上,我们证明了最小化器清晰度的下界与深度成线性增长。然后我们研究了梯度流找到的最小化器的性质,这是梯度下降的极限情况,学习率趋于零。我们证明了对于平坦最小值的隐式正则化:最小化器的清晰度不超过下界的一个常数倍。该常数取决于数据协方差矩阵的条件数,而不取决于宽度或深度。我们分别证明了小尺度初始化和残差初始化的结果。对于小尺度初始化,我们证明了所学权重矩阵近似为秩一及其奇异向量对齐。对于残差初始化,我们证明了高斯初始化的残差网络的梯度流的收敛性。数值实验验证了我们的结果,并将其与非零学习率的梯度下降联系在一起。
May, 2024
本研究提出了一种高效的针对过度参数化深度神经网络的 Sharpness Aware Minimizer 方法的修改版 Efficient Sharpness Aware Minimizer,其中包括两种新的训练策略 - 随机权重扰动和敏感于模型锐度的数据选择,以提高模型的训练效率,实验结果表明,该方法与基本优化器相比较,可以节省高达 60% 的计算资源,而且能够保持或提高测试准确性。
Oct, 2021
深度神经网络中损失最小值的锐度与泛化之间的相关性一直是一个长期讨论的话题。我们在 DCASE2020 挑战数据的音频场景分类任务中探索了这个方面,通过基于二维滤波器归一化可视化和衍生自的锐度度量进行分析。我们的探索性分析表明,锐度更高的最小值往往比平坦的最小值具有更好的泛化能力 - 尤其对于来自之前未见设备的域外数据而言,从而增加了对平坦最小值更好泛化能力的争议。我们进一步发现,特别是优化器的选择是最小值锐度的主要推动因素,并讨论了由此导致的可比性限制。我们的代码、训练模型状态和损失景观可视化已公开可用。
Sep, 2023