本文研究完全连接网络的优化问题,发现在具有金字塔结构、使用平方损失函数和分析激活函数的情况下,只要网络每层隐藏单元数大于训练点数,几乎所有的局部最小值都是全局最优解。
Apr, 2017
该论文研究了使用平方误差损失函数的深度线性和非线性神经网络的误差景象。对于深度线性神经网络,研究者提出了必要和充分条件,以判断风险函数的一个临界点是否为全局最小值,并且这些条件提供了一种高效检查全局最优性的方法。论文还将这些结果扩展到深度非线性神经网络,并在更有限的函数空间设置中证明了类似的充分条件。
Jul, 2017
本文通过解决一个数学猜想并部分解决一个关于深度学习神经网络的开放性问题,从任意深度和宽度的角度证明了其对于平方误差函数的独特性,发现 “坏” 的鞍点只存在于深层网络中,给出了深度学习理论和非凸优化的合理性,但与实际应用仍有一定距离。
May, 2016
本文通过分析,发现现代的神经网络足以直接用随机梯度下降算法实现庞大的非线性优化任务,并且能够克服局部最优解的困难。
Dec, 2014
本文研究了浅层线性神经网络的平方误差损失景观。研究表明,对于相应的优化问题,其具有良好的几何性质,没有虚假局部极值,每个鞍点的 Hessian 矩阵至少有一个负特征值。这意味着在每个鞍点处,都有一个负的曲率方向可以用来优化目标函数值,因此很多局部搜索算法,如梯度下降,可以证明具有全局收敛性。
May, 2018
简述:对深度学习的理论研究逐渐深入,从表示能力到优化、从梯度下降的泛化性质到固有隐藏复杂性的到达方式,已经有了一些解释;通过在分类任务中使用经典的均匀收敛结果,我们证明了在每个层的权重矩阵上施加单位范数约束下最小化替代指数型损失函数的有效性,从而解决了与深度网络泛化性能相关的一些谜团。
Aug, 2019
本文根据统计物理学、随机矩阵理论、神经网络理论和实证证据,证明高维问题中鞍点而非局部极小值点是造成误差函数最小值难以求解的主要原因,因此,提出了一种新的二阶优化方法 —— 无鞍牛顿法,用以快速逃脱高维鞍点并优化深度或递归神经网络。
Jun, 2014
本文提出了一种现代观点和一般性的数学框架,用于涵盖超参数机器学习模型和非线性方程组的损失景观和高效优化,其中包括超参数深度神经网络,并说明这些系统的 PL$^*$ 条件密切相关,这解释了(S)GD 对全局最小值的收敛,并提出了一个放松 PL$^*$ 条件的方法可应用于几乎超参数系统。
Feb, 2020
本文旨在证明高维度空间中定义的某些非凸函数有一个只包含其临界点大部分的数值狭窄区间的存在,并通过对 MNIST 数据集中的师生网络的实验观察得出了类似的结论,并发现梯度下降和随机梯度下降方法可以在相同步数内达到此水平。
本研究通过分析神经网络与算法优化之间的关系,探讨了近期许多工作都关注的神经网络损失动态问题,证明了在 ReLU 激活函数下,NAG 算法可能只是以次线性的速度达到全局最小值,结果表明优化非凸性损失函数实际是在对预测误差进行优化最优化问题。
Oct, 2020