Dec, 2020

同质神经网络适应性优化算法的隐含偏差

TL;DR研究表明采用指数移动平均策略的自适应算法如Adam和RMSProp可以最大化神经网络的边界,而直接在条件器中加历史平方梯度的AdaGrad却不行。