相对平坦性和泛化
深度神经网络的泛化能力在参数空间的损失景观形状和特征空间(即单位活动的空间)的表示流形结构两个不同的方法中已经被研究,但很少一起研究并显式连接。我们提出了一个简单的分析,建立了它们之间的联系,并展示了表明在深度神经网络的学习的最后阶段,神经表示流形的体积压缩与参数优化过程中所探索的最小值周围的损失的平坦性相关的结果。
Oct, 2023
通过引入一种相对平坦度度量方法,本研究提出一种新的正则化器,该正则化器易于计算、快速高效,适用于各种损失函数,可以在单层网络上计算海森矩阵,提高模型的泛化性能,有效避免了损失曲面映射的昂贵代价。
Jul, 2023
该研究提出了基于参数缩放的先验分布与后验分布的不变性解决神经网络中泛化与可靠性问题,避免了参数总体规模变化对网络泛化性能的影响,从而提高了 Laplace 对数似然近似算法的不确定性校准效果。
Sep, 2022
本文研究了 Robust Generalization 与 Robust Loss Landscape 的关系,设计了衡量该 Landscape 平坦性的度量,并验证了平坦的 Landscape 有助于提高 Adversarial Training 的鲁棒性与泛化性能。
Apr, 2021
尽管进行了广泛的研究,但超参数化神经网络为何能够泛化的根本原因仍然不清楚。本研究通过理论和实证研究指出,对于两层 ReLU 网络,(1)平坦确实意味着泛化;(2)存在不泛化的最平坦模型,锐度最小化算法无法泛化;(3)最令人惊讶的是,存在不泛化的最平坦模型,但锐度最小化算法仍然可以泛化。我们的结果表明,锐度与泛化之间的关系微妙地依赖于数据分布和模型架构,锐度最小化算法不仅通过最小化锐度来实现更好的泛化。这需要寻找超参数化神经网络泛化的其他解释。
Jul, 2023
在学习从线性度量中的深度线性网络时,最小化 Hessian 矩阵的迹大致相当于最小化相应端到端矩阵参数的 Schatten 1 - 范数,这进而导致更好的概括。
Jun, 2023
研究表明,随机梯度下降有一个偏好于平滑最小值的隐含偏差。 本文研究发现,在具有二次损失的线性神经网络训练中,线性 ResNets 的零初始化必然收敛于所有最小值中最平滑的最小值,这些最小值对应着接近平衡网络。另外,相邻层的权重矩阵在平坦的极小值解中相互耦合,形成了从输入到输出的明显路径,该路径只用于体验端到端最大增益的信号。
Feb, 2020