Mar, 2024

去除平方根:AdaGrad 的新高效的尺度不变版本

TL;DR本研究介绍了一种名为 KATE 的新型优化算法,它是 AdaGrad 算法的一个尺度不变适应版本。我们通过证明其在广义线性模型中具有尺度不变性,并利用数值实验比较 KATE 与 Adam 和 AdaGrad 算法在不同问题上的性能,包括图像分类和文本分类等复杂机器学习任务,结果表明 KATE 在各种情境中始终优于 AdaGrad 并与 Adam 的性能相当甚至超越。