BriefGPT.xyz
Ask
alpha
关键词
adaptive gradient-based optimizers
搜索结果 - 1
通过关键动量促进记忆增量 Adam 中的探索
提出了一种新的 Adam 的记忆增强版本,通过在训练过程中使用关键动量项的缓冲区,推动探索更平坦的最小值,从而提高了标准监督语言建模和图像分类任务的性能。
PDF
a year ago
Prev
Next