Apr, 2018

Adafactor:自适应学习率与亚线性内存成本

TL;DR该论文提出了一种基于行和列之和的移动平均数的方法,用于估计神经网络权重矩阵的参数,并解决了自适应方法在更新时产生的过大更新的问题。该方法能够在很少的辅助存储空间中达到与 Adam 默认规则相当的结果。