Jul, 2024

自适应随机梯度下降优化方法(包括Adam)在非零学习率下的非收敛性

TL;DR我们证明了自适应随机梯度下降方法(如Adam优化器)在学习率无限接近于零的情况下无法收敛到任何可能的随机极限点。