本文通过实验和理论研究了神经网络的波动,发现高维神经网络的损失函数曲面具有多方向高正曲率、梯度下降具有狭窄、随机位于此曲面中不同位置处的超平面理论能够解释背后的机理。
Oct, 2019
研究表明,深度神经网络模型具有很好的泛化能力,其优秀的泛化能力是来自于损失函数的加权局部最小值及其优化方法。
Jun, 2017
本文回顾了关于神经网络全局和局部损失函数的广泛研究,重点探讨了在某些假设下宽神经网络可能存在亚优局部最小值的性质以及一些修改方法,并讨论了实际神经网络的可视化和经验探索,最后简要讨论了一些收敛结果及其与全局和局部损失函数相关的关系。
Jul, 2020
本文通过可视化方法探讨神经网络损失函数的结构和损失景观对泛化的影响,提出了一种简单的 “滤波器归一化” 方法来可视化损失函数曲率并对损失函数进行有意义的比较。然后,利用各种可视化方法,探索网络结构如何影响损失景观,以及训练参数如何影响最小化器的形状。
Dec, 2017
通过分析嵌入的黎曼流形的微分几何性质,我们研究了损失景观,并展示了与潜在推理相关的几个设置之间的联系。
Jul, 2023
本文研究过参数神经网络的损失函数的数学特性,证明了当神经网络的参数数目大于数据点数目时,全局最小值点的集合通常是一个高维子流形。
Apr, 2018
该研究通过考虑具有较大学习率的网络训练过程中的海森矩阵,研究了损失函数空间,揭示了梯度下降的不稳定性,且观察到了景观平坦化和景观移位的引人注目现象,这两者与训练的不稳定性密切相关。
通过多点优化法,从神经网络的损失曲面中发现任意二维二进制模式,证明这是深度普适型逼近器的普遍属性,我们的分析不仅预测了所有这些低维度模式的存在,而且还预测了容易找到这些模式的属性,且它们可以适用于其他数据集。
Dec, 2019
对深度神经网络的损失景观进行研究,系统地将 1D 曲线从简单到复杂逐渐分类,并通过挖掘算法获得相应的扰动方向,最终提出基于 Hessian 矩阵的理论洞察来解释观察到的若干有趣现象。
May, 2024
本研究提供了正方形损失函数的所有临界点(以及全局优化器)的解析形式的全面(必要和充分)表征,展示了实现全球最小值的必要和充分条件,并通过极小值的分析形式表征了神经网络的损失函数的景观特性。
Oct, 2017