梯度下降找到深度神经网络的全局最小值
在神经网络模型中,使用Gradient descent算法时,当输入分布满足高斯分布时,使用Convolutional neural network和ReLU activations的神经网络模型可以在多项式时间内收敛于全局最优点。但是,我们证明了这种情况下学习是NP完全问题。
Feb, 2017
本文研究完全连接网络的优化问题,发现在具有金字塔结构、使用平方损失函数和分析激活函数的情况下,只要网络每层隐藏单元数大于训练点数,几乎所有的局部最小值都是全局最优解。
Apr, 2017
该研究探讨深度网络中的过拟合问题,发现梯度下降在非线性网络中的优化动力学与线性系统是等价的,同时也推广了梯度下降的两个性质到非线性网络中:隐式正则化以及最小范数解的渐近收敛,通过这些性质,可以提高模型的泛化能力,同时在分类任务中也能得到较好的分类误差。
Dec, 2017
本文通过严谨的证明表明,深度残差单元的非线性残差确实表现出了优化行为,并且极小化问题形成凸起,并证明了当在标准随机梯度下降训练网络时可以实现比任何线性预测器更好的目标值。
Apr, 2018
本文研究在白化数据上,通过梯度下降来训练深度线性神经网络收敛到全局最优点的速度。当隐藏层数的维度不小于输入输出维度的最小值,并且初始化的权重矩阵大致平衡且初始损失小于任何秩缺失解时,可保证线性收敛。此外,在输出维度为1的情况下,即标量回归,这些条件是满足的,并且在随机初始化方案下具有恒定的概率达到全局最优解。
Oct, 2018
本文提供了一种改进的分析方法来探究(随机)梯度下降训练深度神经网络的全局收敛,该方法比之前的研究工作以更加温和的过度参数化条件确定了问题相关参数的大小,包括更紧密的梯度下限和更清晰的算法轨迹路径描述。
Jun, 2019
我们在本文中理论上证明了,在实践中经常遇到的大小的非线性深度神经网络的所有层的非凸优化中,梯度下降法可以找到全局最小值。我们的理论仅需要实际过度参数化的程度,而不需要以前的理论。此外,我们证明了网络的大小呈线性增长是最优的速率,除非是对数因子。此外,训练保证的深度神经网络显示出在自然数据集中很好地泛化到未见过的测试样本,但不包括随机数据集。
Aug, 2019
研究表明,随机梯度下降有一个偏好于平滑最小值的隐含偏差。 本文研究发现,在具有二次损失的线性神经网络训练中,线性ResNets的零初始化必然收敛于所有最小值中最平滑的最小值,这些最小值对应着接近平衡网络。另外,相邻层的权重矩阵在平坦的极小值解中相互耦合,形成了从输入到输出的明显路径,该路径只用于体验端到端最大增益的信号。
Feb, 2020
本研究讨论使用梯度下降和随机梯度下降算法进行训练具有$L$层隐藏层的线性残差神经网络(ResNets)所需的网络宽度和线性变换;并且证明了在特定的线性变换和零初始化条件下,GD和SGD算法能够收敛到最小训练误差的全局最小值。
Mar, 2020
研究无限深度和无限宽度下Residual神经网络中梯度下降和凸优化的等效性,得出当神经网络足够大时,ResNet的训练可以得到几乎没有误差的近似解决方案。
May, 2021