本文研究神经网络的损失函数,通过对其函数空间和权重参数化的几何性质进行自然区分,提出了纯关键点和虚假关键点的概念,并应用于线性神经网络的损失函数。通过利用行列式变量的几何属性,得到了不同损失函数和不同参数化的线性网络的新结果。发现如果网络能够表达所有的线性映射,则其损失函数的地形中不存在坏的局部极小值点;否则,只有当网络的功能空间是行列式变量集时,此时二次损失才不存在坏的局部极小值点。
Oct, 2019
本文回顾了关于神经网络全局和局部损失函数的广泛研究,重点探讨了在某些假设下宽神经网络可能存在亚优局部最小值的性质以及一些修改方法,并讨论了实际神经网络的可视化和经验探索,最后简要讨论了一些收敛结果及其与全局和局部损失函数相关的关系。
Jul, 2020
该论文研究了使用平方误差损失函数的深度线性和非线性神经网络的误差景象。对于深度线性神经网络,研究者提出了必要和充分条件,以判断风险函数的一个临界点是否为全局最小值,并且这些条件提供了一种高效检查全局最优性的方法。论文还将这些结果扩展到深度非线性神经网络,并在更有限的函数空间设置中证明了类似的充分条件。
Jul, 2017
本文通过实验和理论研究了神经网络的波动,发现高维神经网络的损失函数曲面具有多方向高正曲率、梯度下降具有狭窄、随机位于此曲面中不同位置处的超平面理论能够解释背后的机理。
本文通过可视化方法探讨神经网络损失函数的结构和损失景观对泛化的影响,提出了一种简单的 “滤波器归一化” 方法来可视化损失函数曲率并对损失函数进行有意义的比较。然后,利用各种可视化方法,探索网络结构如何影响损失景观,以及训练参数如何影响最小化器的形状。
Dec, 2017
本文通过一个统一的现象学模型来解释深度神经网络优化过程中的一些令人惊讶、或者说是违反直觉的特性,其中高维度发挥了关键作用,通过将损失函数的空间看作是一系列高维楔形图的集合,揭示了优化算法收敛过程的内在规律,最终还研究了一些深度网络的集成技术。
Jun, 2019
研究表明,深度神经网络模型具有很好的泛化能力,其优秀的泛化能力是来自于损失函数的加权局部最小值及其优化方法。
Jun, 2017
本文研究过参数神经网络的损失函数的数学特性,证明了当神经网络的参数数目大于数据点数目时,全局最小值点的集合通常是一个高维子流形。
Apr, 2018
通过分析嵌入的黎曼流形的微分几何性质,我们研究了损失景观,并展示了与潜在推理相关的几个设置之间的联系。
Jul, 2023
本文研究两层神经网络的 ReLU 激活函数和平方损失函数的优化方法,利用一种交替迭代算法寻找损失函数的关键点,实验结果显示该算法能够比随机梯度下降和 Adam 优化器更快、更准确地求解深度值,并且该方法没有调参困扰。
Apr, 2023