Jan, 2021

无损适应性:一种带有动量化、自适应、双平均随机梯度优化方法

TL;DR引入了 MADGRAD 优化方法,其表现优异,不仅适用于视觉领域中的分类和图像转换任务,还适用于自然语言处理中的循环和双向掩蔽模型。在每个任务中,MADGRAD 的测试结果均优于 SGD 和 ADAM,并且在自适应方法通常表现差的问题上也表现出色。