Aug, 2023

ADAM 算法固定步长的发散:一个(非常)简单的例子

TL;DR在没有梯度噪声的情况下,构建了一个具有 Lipschitz 连续梯度的非常简单的一维函数,当应用 ADAM 算法以最小化该函数时,始于原点时会发散,无论选择的方法参数如何。