深度网络极小值的尺度不变平坦度量
该论文从PAC-Bayesian角度审视了关于平坦极小值的讨论,并引入了归一化的平坦极小值概念,该概念不受已知尺度依赖问题的影响,且可以提供更好的假设类层次结构。
Jan, 2019
本文提出了一种与BN层等价的神经网络下具有一致性的、刻画了梯度的度量标准和对应的优化算法,该算法利用该标准对训练进行正则化,获得了与原始SGD相比较显著的性能提升。
Jan, 2021
通过探索误差空间,我们证明了最小值的平坦程度与泛化性能的相关性,并发现在函数空间中,最小值之间的距离更近略微平坦,通过优化算法可以连接彼此
Feb, 2022
Sharpness-Aware Minimization (SAM) relies on worst-case weight perturbations to improve generalization; we provide a more complete theoretical framework for SAM's success, analyze its implicit bias on diagonal linear networks and empirically on fine-tuning non-linear networks, and provide convergence results for non-convex objectives when used with stochastic gradients.
Jun, 2022
该研究提出了基于参数缩放的先验分布与后验分布的不变性解决神经网络中泛化与可靠性问题,避免了参数总体规模变化对网络泛化性能的影响,从而提高了Laplace对数似然近似算法的不确定性校准效果。
Sep, 2022
本文提出了一种基于一阶平坦度的新颖训练过程——Gradient norm Aware Minimization(GAM),该算法可寻找具有相对于所有方向均匀小曲率的最小值,此外使用SAM算法也能找到更加平坦的最小值和更好的泛化能力。
Mar, 2023
我们提出了一种新的方法来理解深度学习中损失曲率和泛化之间的关系,特别地,我们使用深度网络损失Hessian频谱的现有经验分析来基于一个猜想将深度神经网络的损失Hessian和输入输出Jacobian联系在一起。我们证明了一系列理论结果,这些结果量化了模型的输入输出Jacobian在数据分布上近似其Lipschitz范数的程度,并在经验Jacobian的术语中推导出一个新的泛化界限。我们使用我们的猜想以及我们的理论结果来提供一个关于最近观察到的渐进锐化现象以及平坦极小值的泛化特性的新解释。我们提供了实验证据来验证我们的论点。
May, 2023
深度神经网络的泛化能力在参数空间的损失景观形状和特征空间(即单位活动的空间)的表示流形结构两个不同的方法中已经被研究,但很少一起研究并显式连接。我们提出了一个简单的分析,建立了它们之间的联系,并展示了表明在深度神经网络的学习的最后阶段,神经表示流形的体积压缩与参数优化过程中所探索的最小值周围的损失的平坦性相关的结果。
Oct, 2023
本研究针对锐度感知最小化(SAM)在提升泛化能力过程中存在的“平坦指示器问题”进行了探讨,提出了双边SAM(BSAM)方法。通过引入当前权重周围邻域内训练损失与最小损失之间的差异,BSAM能够指导优化过程朝向更平坦的最小值,实验证明其在多项任务中的泛化性能和鲁棒性优于传统SAM。
Sep, 2024