ICLRJan, 2019

ICLR 复现挑战:Padam:在培训深度神经网络中缩小自适应梯度方法的泛化差距

TL;DR本次研究是 ICLR Reproducibility Challenge 2019 的一部分,旨在重现文章 PADAM: Closing The Generalization Gap of Adaptive Gradient Methods In Training Deep Neural Networks 的结果。本文针对过去所提出的自适应梯度算法在一般化性能上不如带有动量项的随机梯度下降(SGD)的问题进行设计,并引入新的可调参数,部分自适应参数 p,使其在自适应梯度算法和带有动量项的 SGD 之间建立桥梁。