非凸随机梯度下降的扩散逼近
通过实验证明大批量随机梯度下降法容易陷入训练和测试函数的尖峰最小值,从而导致模型泛化能力下降,而小批量方法表现更好,这可能是由于梯度估计中的固有噪声引起的,可以采用多种策略来帮助大批量方法消除这种泛化差距。
Sep, 2016
本文通过对非凸优化问题的扩散逼近,分析了Momentum随机梯度下降算法的算法行为,发现该算法对于强鞍点的逃逸具有帮助,但在优化器的周围区域内妨碍了收敛(未进行步长退火或动量退火),本文的理论发现部分验证了MSGD在训练深度神经网络中的实证成功。
Feb, 2018
本文借助扩散过程的分析范式,探索非凸统计优化的全局动态特性,以随机梯度下降 (SGD) 法求解独立成分分析的张量分解为例,将SGD的不同阶段转化为不同的扩散过程并进行分析。研究结果对于理解 Markov 链收敛到扩散过程的弱收敛也具有独立的意义。
Aug, 2018
使用密度扩散理论(DDT),我们首次理论上和实证上证明,SGD比GD更有利于发现平坦极值点,同时表明了使用大批量训练来搜索平坦极值点需要指数级时间。
Feb, 2020
研究表明在拥有相同迭代次数的情况下,小或适中大小的batch在测试集上比非常大的batch具有更好的表现,同时研究如何随着预算增长而改变最佳学习率计划,并提供一个基于随机微分方程的SGD动态的理论解释。
Jun, 2020
随机梯度下降是最简单的深度学习优化器之一,该论文通过蒙特卡洛方法对其进行了收敛性分析,并证明了使用Armijo线搜索的随机梯度下降在非凸优化中的性能优于其他深度学习优化器,同时还发现了批量大小对训练的影响,批量大小越大,需要的步数越少,但在成本和梯度计算的角度,存在一个临界批量大小最能降低成本。
Jul, 2023
利用随机梯度下降(Stochastic Gradient Descent, SGD)算法研究了在正交数据上训练具有线性或ReLU激活函数的单神经元自编码器的动力学。我们发现对于这个非凸问题,使用恒定步长的随机初始化SGD算法可以成功找到全局最小值,但具体找到的全局最小值取决于批量大小。在全批次设置中,我们发现解是稠密的(即非稀疏的),与初始化方向非常吻合,表明特征学习很少发生。另一方面,对于任何小于样本数的批量大小,SGD会找到一个稀疏且几乎正交于初始化的全局最小值,表明随机梯度的随机性在这种情况下引起了一种不同类型的“特征选择”。此外,如果通过Hessian矩阵的迹来衡量最小值的锐度,则使用全批次梯度下降找到的最小值比使用小批量大小找到的最小值更平坦,这与先前的研究相矛盾,先前的研究认为大批量会导致更锐利的最小值。为了证明SGD使用恒定步长的收敛性,我们引入了非齐次随机游走理论中的重要工具,该工具对于独立研究可能具有重要意义。
Aug, 2023
本文定义了用于 graduated optimization 的一类新的非凸函数,讨论了其充分条件,并对 graduated optimization 算法的收敛性进行了分析。研究发现,带有 mini-batch 随机梯度的随机梯度下降 (SGD) 方法可以使函数平滑的程度由学习率和 batch size 决定。此发现从 graduated optimization 的角度提供了理论洞察,解释了为何大批量大小会陷入尖锐的局部最小值,以及为何逐渐减小的学习率和逐渐增大的批量大小优于固定的学习率和批量大小,并给出了最佳的学习率调度方法。此外,分析了一种新的 graduated optimization 框架,该框架使用逐渐减小的学习率和逐渐增大的批量大小,并报告了支持我们理论发现的图像分类的实验结果。
Nov, 2023
我们推导了随机梯度下降和类似算法的最优批次大小计划,通过近似离散参数更新过程为一族随机微分方程,进而使用学习率展开进行优化处理。我们应用这些结果于线性回归任务中。
Dec, 2023
使用常数或递减的学习率的随机梯度下降法(SGD)与关键的批次大小能够最小化深度学习中的非凸优化的随机一阶复杂性,并且与现有的一阶优化器相比较具有实用性。
Feb, 2024