ICMLJul, 2018

非凸优化中 RMSProp 和 ADAM 的收敛性保证及与 Nesterov 加速的实证比较

TL;DR本篇论文探讨了 ADAM 和 RMSProp 优化算法的理论性质和收敛性能,并通过实验比较了它们与 Nesterov 梯度法在多种自编码器结构和数据集上的表现,并表明调整其超参数可以获得更好的泛化性能。