一维深度线性神经网络梯度下降的指数收敛时间

MMSep, 2018

一维深度线性神经网络梯度下降的指数收敛时间

Exponential Convergence Time of Gradient Descent for One-Dimensional Deep Linear Neural Networks

Ohad Shamir

TL;DR研究了基于梯度下降的深度线性神经网络训练中的收敛问题，发现在标准随机初始化下，迭代次数随着深度指数级增加，这可能是深度线性神经网络的梯度方法收敛难以理解的一个潜在障碍。

Abstract

We study the dynamics of gradient descent on objective functions of the form $f(\prod_{i=1}^{k} w_i)$ (with respect to scalar parameters $w_1,\ldots,w_k$), which arise in the context of training depth-$k$ linear neural

gradient descent linear neural networks convergence random initializations matrix

发现论文，激发创造

深度线性神经网络梯度下降的收敛分析

本文研究在白化数据上，通过梯度下降来训练深度线性神经网络收敛到全局最优点的速度。当隐藏层数的维度不小于输入输出维度的最小值，并且初始化的权重矩阵大致平衡且初始损失小于任何秩缺失解时，可保证线性收敛。此外，在输出维度为 1 的情况下，即标量回归，这些条件是满足的，并且在随机初始化方案下具有恒定的概率达到全局最优解。

Oct, 2018

深度神经网络逼近解析函数的指数收敛

本文证明了在低维下解析函数的情况下，深度神经网络逼近的收敛速度是指数级的。

Jul, 2018

超参数神经网络的梯度下降动力学

本文通过 Lyapunov 分析，证明了使用梯度下降法训练过程中神经网络权重的动态会收敛到接近最小范数解的一个点，并通过实例表明这一结论的意义在于 GD 收敛于泛化性能好的预测函数，从而提供了 Arora 等人的普适性结果的另一证明。

May, 2021

训练超参数化深度神经网络的改进分析

本文提供了一种改进的分析方法来探究（随机）梯度下降训练深度神经网络的全局收敛，该方法比之前的研究工作以更加温和的过度参数化条件确定了问题相关参数的大小，包括更紧密的梯度下限和更清晰的算法轨迹路径描述。

Jun, 2019

超参数神经网络的自然梯度下降快速收敛

本文首次分析了自然梯度下降在非线性神经网络中的收敛速度，发现若序列导数矩阵显满秩且在初始化附近稳定，则该方法在随机初始化时就能快速收敛。对于深度 ReLU 神经网络，作者在过度参数化及输入非退化的条件下论证了这两个条件在训练期间均得以保持，并将分析拓展到其他损失函数，同时说明使用 K-FAC 近似方法也能在相同条件下达到全局最小值。

May, 2019

强生长条件下随机梯度下降的快速收敛

本文考虑优化一个平滑凸函数，该函数是一组可微函数的平均数，在每个梯度的范数受到平均梯度范数的线性约束的假设下，证明了基本的随机梯度方法具有 O (1/k) 的收敛速度，并且在强凸条件下具有线性收敛速度。

Aug, 2013

一层隐藏层神经网络的梯度下降：多项式收敛和 SQ 下界

研究神经网络在激活层和输出加权和层下的训练复杂性，并在高斯分布条件下证明 GD 收敛于最好逼近目标函数的多项式的最小误差，并发现 GD 在发现低频傅立叶分量之前要先发现高频分量。

May, 2018

深度学习的超参数化收敛理论

通过对大规模深层神经网络的优化方法的研究，我们证明了 SGD 可以在多项式时间内发现 DNNs 训练目标上的全局极小值。

Nov, 2018

梯度下降证明过参数化神经网络的最优化

本文研究表明，在神经网络中使用 ReLU 激活函数和随机初始化梯度下降法可以以全局线性收敛率收敛于全局最优解，其分析依赖于神经网络的超参数和随机初始化方式，这些经验也可能有助于分析深度网络等其他一阶方法。

Oct, 2018

一种带有指数收敛速率的随机梯度方法，适用于有限训练集

本文提出了一个新的随机梯度方法用于优化一组平滑函数的和，其中和是强凸的。与标准随机梯度方法在这个问题上的次线性收敛相比，该方法通过记忆之前的梯度值来实现线性收敛率。在机器学习的背景下，数值实验表明，该方法可以明显优于标准算法，不仅在优化训练误差方面，而且可以快速降低测试误差。

Feb, 2012