本文回顾了关于神经网络全局和局部损失函数的广泛研究,重点探讨了在某些假设下宽神经网络可能存在亚优局部最小值的性质以及一些修改方法,并讨论了实际神经网络的可视化和经验探索,最后简要讨论了一些收敛结果及其与全局和局部损失函数相关的关系。
Jul, 2020
本文提出了一种现代观点和一般性的数学框架,用于涵盖超参数机器学习模型和非线性方程组的损失景观和高效优化,其中包括超参数深度神经网络,并说明这些系统的 PL$^*$ 条件密切相关,这解释了(S)GD 对全局最小值的收敛,并提出了一个放松 PL$^*$ 条件的方法可应用于几乎超参数系统。
Feb, 2020
研究表明,深度神经网络模型具有很好的泛化能力,其优秀的泛化能力是来自于损失函数的加权局部最小值及其优化方法。
Jun, 2017
本文通过一个统一的现象学模型来解释深度神经网络优化过程中的一些令人惊讶、或者说是违反直觉的特性,其中高维度发挥了关键作用,通过将损失函数的空间看作是一系列高维楔形图的集合,揭示了优化算法收敛过程的内在规律,最终还研究了一些深度网络的集成技术。
Jun, 2019
本文通过可视化方法探讨神经网络损失函数的结构和损失景观对泛化的影响,提出了一种简单的 “滤波器归一化” 方法来可视化损失函数曲率并对损失函数进行有意义的比较。然后,利用各种可视化方法,探索网络结构如何影响损失景观,以及训练参数如何影响最小化器的形状。
Dec, 2017
本文研究过参数神经网络的损失曲面的全局最小值的几何结构,证明浅层神经网络可以插值任何数据集,给出全局最小值的 Hessian 矩阵的特征表达式,并提供一种实用的概率方法寻找插值点。
Apr, 2023
本文通过组合分析的方式,对超参数化神经网络中对称引起的关键点进行了探讨,发现这些关键点生成的正则流形在 mildly overparameterized regime 时占优,但是当 vastly overparameterized regime 时,亚线性关键点数量的组合爆炸会占据优势。最终得出一个数学公式来计算关键点数量。
May, 2021
通过分析嵌入的黎曼流形的微分几何性质,我们研究了损失景观,并展示了与潜在推理相关的几个设置之间的联系。
Jul, 2023
研究了两层轻度超参数化 ReLU 神经网络对于平方误差丢失函数的一般有限输入数据集的损失景观,使用 Jacobean 的秩来界定局部和全局极小值集合的维度,并利用随机二进制矩阵的结果证明大多数激活模式对应于没有坏的可微局部极小值的参数区域。
May, 2023
本文研究完全连接网络的优化问题,发现在具有金字塔结构、使用平方损失函数和分析激活函数的情况下,只要网络每层隐藏单元数大于训练点数,几乎所有的局部最小值都是全局最优解。
Apr, 2017