关键词adaptive gradient algorithms
搜索结果 - 3
- Adagrad 在各向异性光滑下的大批量分析
通过在大批量设置下对 Adagrad 进行新分析,证明了它在凸平滑目标和非凸平滑目标上不会因批量大小增加而收敛减慢,因此在大批量设置中仍然可以比 SGD 更快地实现收敛,进而解决了理论和实践之间的差距。
- ICLR生成对抗网络中自适应梯度算法的深入理解
本文旨在从理论和实证角度分析适应性梯度算法在解决非凸非凹极小极大问题中的性能,并提出了一种名为乐观阿达格勒的自适应变体算法,证明了非凸非凹极小极大优化的自适应复杂性,并在生成对抗网络培训中显示出优越性能。
- ICLR解耦重量衰减正则化
L$_2$ 正则化与权重衰减正则化在标准随机梯度下降中是等价的,但是在自适应梯度算法,比如 Adam 中并不相同。本文通过 “解耦” 权重衰减与代价函数的优化步骤,提出了一个简单的修改,从而恢复了原始的权重衰减规则。实验证据表明我们提出的修