Oct, 2020
深度学习中随机梯度下降泛化优于ADAM方法的理论解释
Towards Theoretically Understanding Why SGD Generalizes Better Than ADAM
in Deep Learning
TL;DR该研究旨在通过分析局部收敛行为来解释为什么类似ADAM的适应性梯度算法的泛化性能比SGD差,尤其是它们在梯度噪声方面存在重尾现象;研究结果表明,SGD相比于ADAM能更好地从局部最小值中逃脱,并且在平缓的最小值处表现更好。实验结果证实了我们的理论假设。