过度参数化的非线性学习: 梯度下降是否走过了最短路径?

Dec, 2018

过度参数化的非线性学习: 梯度下降是否走过了最短路径?

Overparameterized Nonlinear Learning: Gradient Descent Takes the Shortest Path?

Samet Oymak, Mahdi Soltanolkotabi

TL;DR该论文讨论在数据过度参数化时，第一阶段优化方案（如随机梯度下降）的性质。作者发现，当损失函数在初始点的最小邻域内具有某些属性时，迭代会以几何速率收敛于全局最优解，会以接近直接的路线从初始点到达全局最优解，其中，通过引入一个新的潜力函数来作为证明技术的一部分。对于随机梯度下降（SGD），作者开发了新的鞅技巧，以保证 SGD 绝不会离开初始化的小邻域。

Abstract

Many modern learning tasks involve fitting nonlinear models to data which are trained in an overparameterized regime where the parameters of the model exceed the size of the training dataset. Due to this overparameterization, the training loss may have infinitely many global minima and

发现论文，激发创造

深度神经网络损失函数的极限方向与随机梯度下降步长的关系

使用较小的学习率和SGD最陡峭的方向进行训练可以提高模型的训练速度和泛化能力，而较大的学习率或较小的批量大小将导致SGD进入更宽的区域。

Jul, 2018

梯度下降证明过参数化神经网络的最优化

本文研究表明，在神经网络中使用ReLU激活函数和随机初始化梯度下降法可以以全局线性收敛率收敛于全局最优解，其分析依赖于神经网络的超参数和随机初始化方式，这些经验也可能有助于分析深度网络等其他一阶方法。

Oct, 2018

随机梯度下降优化超参数化的深度ReLU网络

研究如何使用ReLU激活函数、梯度下降和随机梯度下降来训练深度神经网络，证明在一定条件下，充分的随机权重初始化能够让这些方法在超参数化的深层ReLU网络上达到全局最小值。

Nov, 2018

迈向适度的过度参数化: 为训练浅层神经网络提供全局收敛保证

本文探讨了神经网络的过度参数化现象对于梯度下降收敛至全域最优解所需的程度及类型，并结合实验结果以浅层神经网络和平滑激活函数为例，证明了只需参数数量高于数据集大小的平方根时，梯度下降随机初始化即可收敛至全域最优解。

Feb, 2019

神经网络过度参数化对梯度混乱和随机梯度下降的影响

本文研究神经网络架构如何影响训练速度，引入“梯度混乱”概念来分析。实验结果表明，增加神经网络宽度可以降低梯度混乱从而提高模型训练效率，而增加深度则会使训练效率降低。

Apr, 2019

无痛随机梯度: 插值，线性搜索和收敛速率

本文提出了一种使用线性搜索技术自动设置步长的随机梯度下降算法，在数据插值设置中，使用 Armijo 线性搜索方法的 SGD 实现凸和强凸函数的确定性收敛率，同时提出了一种 Lipschitz 线性搜索策略的随机额外梯度的算法，该算法在满足嵌入条件的非凸问题和鞍点问题的情况下实现了线性收敛率，并在标准分类任务上表现出了良好的性能。

May, 2019

超参数神经网络的自然梯度下降快速收敛

本文首次分析了自然梯度下降在非线性神经网络中的收敛速度，发现若序列导数矩阵显满秩且在初始化附近稳定，则该方法在随机初始化时就能快速收敛。对于深度 ReLU 神经网络，作者在过度参数化及输入非退化的条件下论证了这两个条件在训练期间均得以保持，并将分析拓展到其他损失函数，同时说明使用 K-FAC 近似方法也能在相同条件下达到全局最小值。

May, 2019

超参数非线性模型的随机镜像下降：收敛性，隐式正则化和泛化

本研究主要探讨过参数模型中采用 stochastic mirror descent 方法，在足够小的步长下，通过初始化接近全局最小值，其可以收敛和迭代到一种接近 Bregman 散度且具有更好泛化性能的解决方案，并探究该方法中不同的隐式正则化方式对结果表现的影响。

Jun, 2019

训练超参数化深度神经网络的改进分析

本文提供了一种改进的分析方法来探究（随机）梯度下降训练深度神经网络的全局收敛，该方法比之前的研究工作以更加温和的过度参数化条件确定了问题相关参数的大小，包括更紧密的梯度下限和更清晰的算法轨迹路径描述。

Jun, 2019

过参数神经网络优化算法的动力学视角

本研究通过分析神经网络与算法优化之间的关系，探讨了近期许多工作都关注的神经网络损失动态问题，证明了在ReLU激活函数下，NAG算法可能只是以次线性的速度达到全局最小值，结果表明优化非凸性损失函数实际是在对预测误差进行优化最优化问题。

Oct, 2020