Feb, 2024
Adam和随机梯度下降优化的全局最小值非收敛问题及人工神经网络训练中的局部最小值构建
Non-convergence to global minimizers for Adam and stochastic gradient
descent optimization and constructions of local minimizers in the training of
artificial neural networks
TL;DR在对使用ReLU和相关激活函数的浅层人工神经网络进行研究中,我们发现随机梯度下降(SGD)方法(如纯独立SGD、动量SGD、AdaGrad、RMSprop和Adam优化器)高概率无法收敛到全局最小值,并证实了ANN训练问题的优化空间中存在具有不同风险值的局部最小值的分层结构。