KDDJun, 2020

MaxVA:通过最大化梯度观测方差快速调整步长

TL;DR本文提出一种自适应学习率原则,通过将 Adam 中的平方梯度的运行平均替换为加权平均来实现。该方法比解决 Adam 中不稳定或过大的自适应学习率的 AMSGrad 和 AdaBound 等方法更有效,在机器翻译,自然语言理解和大批量预训练 BERT 方面展现出更理想的收敛行为。