BriefGPT.xyz
Ask
alpha
关键词
update clipping
搜索结果 - 1
Adafactor:自适应学习率与亚线性内存成本
该论文提出了一种基于行和列之和的移动平均数的方法,用于估计神经网络权重矩阵的参数,并解决了自适应方法在更新时产生的过大更新的问题。该方法能够在很少的辅助存储空间中达到与 Adam 默认规则相当的结果。
PDF
6 years ago
Prev
Next