Nov, 2023

一个系数让 SVRG 生效

TL;DR通过引入一个乘法系数来控制 Stochastic Variance Reduced Gradient(SVRG)的强度,并通过线性衰减调整该系数,我们展示了 SVRG 优化神经网络的潜力,并发现对于更深的网络,SVRG 的减弱方差的项的强度应该更小,并且应该随着训练的进行而减小。我们的方法命名为 alpha-SVRG,并通过在不同架构和图像分类数据集上的实验证明 alpha-SVRG 相对于基准方法和标准 SVRG 在训练损失方面能够更好地优化神经网络。我们希望我们的发现能够鼓励进一步探索深度学习中的方差减少技术。