BriefGPT.xyz
Ask
alpha
关键词
adaptive stepsizes
搜索结果 - 2
在重尾噪声存在时,梯度剪裁改进了 AdaGrad
本文通过证明,在处理偏重尾噪声时,AdaGrad 和 Adam 具有很差的高概率收敛性,提出了一种名为 Clip-RAdaGradD(Clipped Reweighted AdaGrad with Delay)的新版本 AdaGrad,并证
→
PDF
a month ago
自适应步长随机梯度下降算法的收敛性
通过研究广义 AdaGrad 步长在凸和非凸设置中,本文证明了这些步长实现梯度渐近收敛于零的充分条件,从而填补了这些方法理论上的空白。此外,本文表明这些步长允许自动适应随机梯度噪声级别在凸和非凸情况下,实现 O(1/T)到 O(1 / 根号
→
PDF
6 years ago
Prev
Next