BriefGPT.xyz
Ask
alpha
关键词
l$_2$ regularization
搜索结果 - 1
ICLR
解耦重量衰减正则化
L$_2$ 正则化与权重衰减正则化在标准随机梯度下降中是等价的,但是在自适应梯度算法,比如 Adam 中并不相同。本文通过 “解耦” 权重衰减与代价函数的优化步骤,提出了一个简单的修改,从而恢复了原始的权重衰减规则。实验证据表明我们提出的修
→
PDF
7 years ago
Prev
Next