Oct, 2023

带预处理的Polyak步长的随机梯度下降

TL;DR扩展了Stochastic Gradient Descent with Polyak Step-size (SPS)方法,使用Hutchinson's方法、Adam和AdaGrad等预处理技术来提高其在糟糕缩放和/或病态数据集上的性能。