BriefGPT.xyz
大模型
Ask
alpha
关键词
adam-mini
搜索结果 - 1
Adam-mini: 更少的学习率,取得更多的收益
Adam-mini 是一个优化器,通过减少内存占用量(相较于 AdamW 减少了 45%至 50%)来实现与之相当或更好的性能。Adam-mini 通过减少 Adam 中的学习率数量来降低内存使用,使用预定义参数块中 $v$ 的平均值作为该
→
PDF
10 days ago
Prev
Next