Sep, 2023

增强型随机梯度下降算法的改进步长:收敛性和实验

TL;DR该论文提出了一种新颖的方法,通过引入基于1/√t的修改衰减步长来提高随机梯度下降(SGD)算法的性能。所提出的步长整合了对数项,在最后的迭代中选择较小的值。通过分析,我们在非凸光滑函数无Polyak-Lojasiewicz条件的情况下,建立了收敛速度为O(ln T/√T)。为了评估我们的方法的有效性,我们在FashionMNIST和CIFAR10数据集上进行了图像分类任务的数值实验,结果显示与传统的1/√t步长相比,准确率明显提高,分别观察到0.5%和1.4%的增益。源代码可以在https://github.com/Shamaeem/LNSQRTStepSize找到。