ICLRJun, 2020

AdamP:针对尺度不变权重下动量优化器的减缓减速方法

TL;DR本文介绍了正则化技术在深度学习中的重要性,以及在使用冲量梯度下降优化器时可能出现的问题和解决方法。作者提出了 SGDP 和 AdamP 两种解决方案,通过去除每次优化步骤中的径向分量或增加规范的方向,来维护深度神经网络的性能,并验证了这些方法对 13 个基准测试任务的实验结果。