Jun, 2024

Adam-mini: 更少的学习率,取得更多的收益

TL;DRAdam-mini 是一个优化器,通过减少内存占用量(相较于 AdamW 减少了 45%至 50%)来实现与之相当或更好的性能。Adam-mini 通过减少 Adam 中的学习率数量来降低内存使用,使用预定义参数块中 $v$ 的平均值作为该块的学习率。通过在各种语言模型上进行实证验证,我们发现 Adam-mini 在预训练、监督微调和增强学习等方面显示出与 AdamW 相当或更好的性能,同时还减少了通信开销,并提高了吞吐量。