深度线性神经网络梯度下降的收敛分析

ICLROct, 2018

深度线性神经网络梯度下降的收敛分析

A Convergence Analysis of Gradient Descent for Deep Linear Neural Networks

Sanjeev Arora, Nadav Cohen, Noah Golowich, Wei Hu

TL;DR本文研究在白化数据上，通过梯度下降来训练深度线性神经网络收敛到全局最优点的速度。当隐藏层数的维度不小于输入输出维度的最小值，并且初始化的权重矩阵大致平衡且初始损失小于任何秩缺失解时，可保证线性收敛。此外，在输出维度为 1 的情况下，即标量回归，这些条件是满足的，并且在随机初始化方案下具有恒定的概率达到全局最优解。

Abstract

We analyze speed of convergence to global optimum for gradient descent training a deep linear neural network (parameterized as $x \mapsto

deep linear neural network gradient descent convergence whitened data balanced initialization

发现论文，激发创造

超参数神经网络的梯度下降动力学

本文通过 Lyapunov 分析，证明了使用梯度下降法训练过程中神经网络权重的动态会收敛到接近最小范数解的一个点，并通过实例表明这一结论的意义在于 GD 收敛于泛化性能好的预测函数，从而提供了 Arora 等人的普适性结果的另一证明。

May, 2021

训练超参数化深度神经网络的改进分析

本文提供了一种改进的分析方法来探究（随机）梯度下降训练深度神经网络的全局收敛，该方法比之前的研究工作以更加温和的过度参数化条件确定了问题相关参数的大小，包括更紧密的梯度下限和更清晰的算法轨迹路径描述。

Jun, 2019

关于训练深层线性 ResNets 的全局收敛性

本研究讨论使用梯度下降和随机梯度下降算法进行训练具有 $L$ 层隐藏层的线性残差神经网络（ResNets）所需的网络宽度和线性变换；并且证明了在特定的线性变换和零初始化条件下，GD 和 SGD 算法能够收敛到最小训练误差的全局最小值。

Mar, 2020

一维深度线性神经网络梯度下降的指数收敛时间

研究了基于梯度下降的深度线性神经网络训练中的收敛问题，发现在标准随机初始化下，迭代次数随着深度指数级增加，这可能是深度线性神经网络的梯度方法收敛难以理解的一个潜在障碍。

Sep, 2018

具有单神经元层的深度线性网络的全局收敛分析

本文介绍了深度线性网络的非局部收敛分析，特别是考虑具有一个神经元层的深度线性网络，其收敛点在梯度流下产生的任意起点轨迹上，包括收敛到鞍点或原点之一的路径，本文通过扩展 Eftekhari 的工作，以可证明地标识稳定秩集和全局最小化收敛集来实现这些结果。

Jan, 2022

梯度下降证明过参数化神经网络的最优化

本文研究表明，在神经网络中使用 ReLU 激活函数和随机初始化梯度下降法可以以全局线性收敛率收敛于全局最优解，其分析依赖于神经网络的超参数和随机初始化方式，这些经验也可能有助于分析深度网络等其他一阶方法。

Oct, 2018

关于使用线性宽度进行深度 ReLU 网络梯度下降全局收敛的证明

本文利用 Lipschitz 性质，仅需跟踪最后一个隐藏层的输出的演变，即可证明标准平方误差梯度下降可在单个宽层的 ReLU 网络中实现全局收敛，并显示了一些其跟先前的技术相比的改进。

Jan, 2021

梯度下降法在实用规模的可推广深度神经网络中寻找全局最小值

我们在本文中理论上证明了，在实践中经常遇到的大小的非线性深度神经网络的所有层的非凸优化中，梯度下降法可以找到全局最小值。我们的理论仅需要实际过度参数化的程度，而不需要以前的理论。此外，我们证明了网络的大小呈线性增长是最优的速率，除非是对数因子。此外，训练保证的深度神经网络显示出在自然数据集中很好地泛化到未见过的测试样本，但不包括随机数据集。

Aug, 2019

超参数神经网络的自然梯度下降快速收敛

本文首次分析了自然梯度下降在非线性神经网络中的收敛速度，发现若序列导数矩阵显满秩且在初始化附近稳定，则该方法在随机初始化时就能快速收敛。对于深度 ReLU 神经网络，作者在过度参数化及输入非退化的条件下论证了这两个条件在训练期间均得以保持，并将分析拓展到其他损失函数，同时说明使用 K-FAC 近似方法也能在相同条件下达到全局最小值。

May, 2019

深度学习的超参数化收敛理论

通过对大规模深层神经网络的优化方法的研究，我们证明了 SGD 可以在多项式时间内发现 DNNs 训练目标上的全局极小值。

Nov, 2018