ICLRNov, 2017

解耦重量衰减正则化

TL;DRL$_2$ 正则化与权重衰减正则化在标准随机梯度下降中是等价的,但是在自适应梯度算法,比如 Adam 中并不相同。本文通过 “解耦” 权重衰减与代价函数的优化步骤,提出了一个简单的修改,从而恢复了原始的权重衰减规则。实验证据表明我们提出的修改不仅能够使得标准 SGD 和 Adam 中的权重衰减因素的最优选择与学习率的设置相分离,还能够显著提高 Adam 的泛化性能,从而使得它在图像分类数据集中可以与 SGD with momentum 竞争。