Oct, 2020

深度学习中随机梯度下降泛化优于 ADAM 方法的理论解释

TL;DR该研究旨在通过分析局部收敛行为来解释为什么类似 ADAM 的适应性梯度算法的泛化性能比 SGD 差,尤其是它们在梯度噪声方面存在重尾现象;研究结果表明,SGD 相比于 ADAM 能更好地从局部最小值中逃脱,并且在平缓的最小值处表现更好。实验结果证实了我们的理论假设。