Jun, 2024

在重尾噪声存在时,梯度剪裁改进了 AdaGrad

TL;DR本文通过证明,在处理偏重尾噪声时,AdaGrad 和 Adam 具有很差的高概率收敛性,提出了一种名为 Clip-RAdaGradD(Clipped Reweighted AdaGrad with Delay)的新版本 AdaGrad,并证明了它在处理偏重尾噪声时具有多对数相关性的高概率收敛边界。经验评估揭示出剪裁版本的 AdaGrad/Adam 在处理偏重尾噪声时具有卓越优势。