梯度下降找到深度神经网络的全局最小值

Nov, 2018

梯度下降找到深度神经网络的全局最小值

Gradient Descent Finds Global Minima of Deep Neural Networks

Simon S. Du, Jason D. Lee, Haochuan Li, Liwei Wang, Xiyu Zhai

TL;DR通过分析神经网络架构的格拉姆矩阵的结构，证明了梯度下降法在针对深度超参数神经网络ResNet的多项式时间内实现零训练损失，并且进一步将该分析扩展到了深度残差卷积神经网络并获得了类似的收敛结果。

Abstract

gradient descent finds a global minimum in training deep neural networks despite the objective function being non-convex. The current pape

发现论文，激发创造

具有高斯输入的 ConvNet 的全局最优梯度下降

在神经网络模型中，使用Gradient descent算法时，当输入分布满足高斯分布时，使用Convolutional neural network和ReLU activations的神经网络模型可以在多项式时间内收敛于全局最优点。但是，我们证明了这种情况下学习是NP完全问题。

Feb, 2017

深且宽神经网络的损失曲面

本文研究完全连接网络的优化问题，发现在具有金字塔结构、使用平方损失函数和分析激活函数的情况下，只要网络每层隐藏单元数大于训练点数，几乎所有的局部最小值都是全局最优解。

Apr, 2017

深度学习理论III：解释非过拟合谜题

该研究探讨深度网络中的过拟合问题，发现梯度下降在非线性网络中的优化动力学与线性系统是等价的，同时也推广了梯度下降的两个性质到非线性网络中：隐式正则化以及最小范数解的渐近收敛，通过这些性质，可以提高模型的泛化能力，同时在分类任务中也能得到较好的分类误差。

Dec, 2017

ResNets是否可证明比线性预测器更好？

本文通过严谨的证明表明，深度残差单元的非线性残差确实表现出了优化行为，并且极小化问题形成凸起，并证明了当在标准随机梯度下降训练网络时可以实现比任何线性预测器更好的目标值。

Apr, 2018

深度线性神经网络梯度下降的收敛分析

本文研究在白化数据上，通过梯度下降来训练深度线性神经网络收敛到全局最优点的速度。当隐藏层数的维度不小于输入输出维度的最小值，并且初始化的权重矩阵大致平衡且初始损失小于任何秩缺失解时，可保证线性收敛。此外，在输出维度为1的情况下，即标量回归，这些条件是满足的，并且在随机初始化方案下具有恒定的概率达到全局最优解。

Oct, 2018

训练超参数化深度神经网络的改进分析

本文提供了一种改进的分析方法来探究（随机）梯度下降训练深度神经网络的全局收敛，该方法比之前的研究工作以更加温和的过度参数化条件确定了问题相关参数的大小，包括更紧密的梯度下限和更清晰的算法轨迹路径描述。

Jun, 2019

梯度下降法在实用规模的可推广深度神经网络中寻找全局最小值

我们在本文中理论上证明了，在实践中经常遇到的大小的非线性深度神经网络的所有层的非凸优化中，梯度下降法可以找到全局最小值。我们的理论仅需要实际过度参数化的程度，而不需要以前的理论。此外，我们证明了网络的大小呈线性增长是最优的速率，除非是对数因子。此外，训练保证的深度神经网络显示出在自然数据集中很好地泛化到未见过的测试样本，但不包括随机数据集。

Aug, 2019

深度网络平坦极小值的独特特性

研究表明，随机梯度下降有一个偏好于平滑最小值的隐含偏差。本文研究发现，在具有二次损失的线性神经网络训练中，线性ResNets的零初始化必然收敛于所有最小值中最平滑的最小值，这些最小值对应着接近平衡网络。另外，相邻层的权重矩阵在平坦的极小值解中相互耦合，形成了从输入到输出的明显路径，该路径只用于体验端到端最大增益的信号。

Feb, 2020

关于训练深层线性ResNets的全局收敛性

本研究讨论使用梯度下降和随机梯度下降算法进行训练具有$L$层隐藏层的线性残差神经网络（ResNets）所需的网络宽度和线性变换；并且证明了在特定的线性变换和零初始化条件下，GD和SGD算法能够收敛到最小训练误差的全局最小值。

Mar, 2020

深度ResNet的过度参数化：零损失和平均场分析

研究无限深度和无限宽度下Residual神经网络中梯度下降和凸优化的等效性，得出当神经网络足够大时，ResNet的训练可以得到几乎没有误差的近似解决方案。

May, 2021