Oct, 2020

深度学习中随机梯度下降泛化优于ADAM方法的理论解释

TL;DR该研究旨在通过分析局部收敛行为来解释为什么类似ADAM的适应性梯度算法的泛化性能比SGD差,尤其是它们在梯度噪声方面存在重尾现象;研究结果表明,SGD相比于ADAM能更好地从局部最小值中逃脱,并且在平缓的最小值处表现更好。实验结果证实了我们的理论假设。