本文研究了浅层线性神经网络的平方误差损失景观。研究表明,对于相应的优化问题,其具有良好的几何性质,没有虚假局部极值,每个鞍点的 Hessian 矩阵至少有一个负特征值。这意味着在每个鞍点处,都有一个负的曲率方向可以用来优化目标函数值,因此很多局部搜索算法,如梯度下降,可以证明具有全局收敛性。
May, 2018
本文研究过参数神经网络的损失函数的数学特性,证明了当神经网络的参数数目大于数据点数目时,全局最小值点的集合通常是一个高维子流形。
Apr, 2018
本文探讨了神经网络的过度参数化现象对于梯度下降收敛至全域最优解所需的程度及类型,并结合实验结果以浅层神经网络和平滑激活函数为例,证明了只需参数数量高于数据集大小的平方根时,梯度下降随机初始化即可收敛至全域最优解。
Feb, 2019
本文通过解决一个数学猜想并部分解决一个关于深度学习神经网络的开放性问题,从任意深度和宽度的角度证明了其对于平方误差函数的独特性,发现 “坏” 的鞍点只存在于深层网络中,给出了深度学习理论和非凸优化的合理性,但与实际应用仍有一定距离。
May, 2016
本研究考虑使用深度线性网络进行任意凸可微损失的最小化,证明了当隐藏层宽度大于等于输入层或输出层时,局部最小值等价于全局最小值,若损失函数为凸且 Lipschitz 连续但不可微,则深度线性网络可能存在次优解。
Dec, 2017
研究浅层神经网络在过参数化情况下,如何使用二次激活函数进行训练并找到全局最优解,结果表明此方法适用于具有任意输入 / 输出对的任何训练数据,并可使用各种本地搜索启发式方法高效地找到全局最优解。同时,对於差分激活函数,我们也证明了梯度下降法在得到合适的初值后可以以线性速度收敛到全局最优解,它的输入来自符合高斯分布的选定属性且标记是通过种植的重量系数生成的。
Jul, 2017
本文研究完全连接网络的优化问题,发现在具有金字塔结构、使用平方损失函数和分析激活函数的情况下,只要网络每层隐藏单元数大于训练点数,几乎所有的局部最小值都是全局最优解。
Apr, 2017
该论文研究了使用平方误差损失函数的深度线性和非线性神经网络的误差景象。对于深度线性神经网络,研究者提出了必要和充分条件,以判断风险函数的一个临界点是否为全局最小值,并且这些条件提供了一种高效检查全局最优性的方法。论文还将这些结果扩展到深度非线性神经网络,并在更有限的函数空间设置中证明了类似的充分条件。
通过分析神经网络架构的格拉姆矩阵的结构,证明了梯度下降法在针对深度超参数神经网络 ResNet 的多项式时间内实现零训练损失,并且进一步将该分析扩展到了深度残差卷积神经网络并获得了类似的收敛结果。
Nov, 2018
通过对大规模深层神经网络的优化方法的研究,我们证明了 SGD 可以在多项式时间内发现 DNNs 训练目标上的全局极小值。