Feb, 2024
Adam 和随机梯度下降优化的全局最小值非收敛问题及人工神经网络训练中的局部最小值构建
Non-convergence to global minimizers for Adam and stochastic gradient descent optimization and constructions of local minimizers in the training of artificial neural networks
Arnulf Jentzen, Adrian Riekert
TL;DR在对使用 ReLU 和相关激活函数的浅层人工神经网络进行研究中,我们发现随机梯度下降(SGD)方法(如纯独立 SGD、动量 SGD、AdaGrad、RMSprop 和 Adam 优化器)高概率无法收敛到全局最小值,并证实了 ANN 训练问题的优化空间中存在具有不同风险值的局部最小值的分层结构。