揭示海森矩阵:平滑收敛损失函数景观的关键
我们研究了常见损失曲面的性质,并针对深度学习,通过Hessian矩阵的谱将其分为两个部分,并证明了Sagun等人所述的猜想。我们的观察结果对高维度的非凸优化具有重要意义,并提出了新的基于超参数冗余的几何角度视角。
Jun, 2017
本研究提供了正方形损失函数的所有临界点(以及全局优化器)的解析形式的全面(必要和充分)表征,展示了实现全球最小值的必要和充分条件,并通过极小值的分析形式表征了神经网络的损失函数的景观特性。
Oct, 2017
本文通过一个统一的现象学模型来解释深度神经网络优化过程中的一些令人惊讶、或者说是违反直觉的特性,其中高维度发挥了关键作用,通过将损失函数的空间看作是一系列高维楔形图的集合,揭示了优化算法收敛过程的内在规律,最终还研究了一些深度网络的集成技术。
Jun, 2019
本文通过实验和理论研究了神经网络的波动,发现高维神经网络的损失函数曲面具有多方向高正曲率、梯度下降具有狭窄、随机位于此曲面中不同位置处的超平面理论能够解释背后的机理。
Oct, 2019
本文回顾了关于神经网络全局和局部损失函数的广泛研究,重点探讨了在某些假设下宽神经网络可能存在亚优局部最小值的性质以及一些修改方法,并讨论了实际神经网络的可视化和经验探索,最后简要讨论了一些收敛结果及其与全局和局部损失函数相关的关系。
Jul, 2020
通过研究每层的Hessian eigenspectrum,提出了一种基于Hessian trace的新的正则化方法,可以间接地迫使Stochastic Gradient Descent收敛到更平的最小值,从而提高了深学习模型的泛化性能。
Dec, 2020
在分类任务的深度神经网络训练中,观察到了一个现象,称为神经崩溃,它似乎无论损失函数的选择如何,都会在最后一层分类器和特征中发生。作者提供了在均方误差损失下,神经崩溃解决方案是唯一的全局极小值,并且研究了调整超参数来改善优化景观的可能性,最后在实际网络框架上验证了理论发现。
Mar, 2022
该研究通过考虑具有较大学习率的网络训练过程中的海森矩阵,研究了损失函数空间,揭示了梯度下降的不稳定性,且观察到了景观平坦化和景观移位的引人注目现象,这两者与训练的不稳定性密切相关。
Jul, 2023