Jul, 2023

通过关键动量促进记忆增量 Adam 中的探索

TL;DR提出了一种新的 Adam 的记忆增强版本,通过在训练过程中使用关键动量项的缓冲区,推动探索更平坦的最小值,从而提高了标准监督语言建模和图像分类任务的性能。