Apr, 2024

新的随机梯度下降的对数步长

TL;DR本文提出了一种利用新的对数步长的随机梯度下降(SGD)方法的新型热重启技术,对于平滑和非凸函数,我们建立了 SGD 的 O(1/√T)收敛速度。我们对 FashionMinst,CIFAR10 和 CIFAR100 数据集进行了全面的实现,证明了新提出的步长的高效性。此外,我们将结果与其他九种现有方法进行了比较,并证明在使用卷积神经网络(CNN)模型时,新的对数步长将 CIFAR100 数据集的测试准确性提高了 0.9%。