Feb, 2025

无调度优化器、AdEMAMix与加速SGD变体之间的联系

TL;DR本研究针对深度学习优化中的调度自由优化器与加速随机梯度下降(SGD)变体之间的理论联系进行了探讨。通过将动量系数解耦与当前梯度权重,我们发现AdEMAMix在语言建模任务中表现优越。此外,提出的简化AdEMAMix在不同批量设置下保持优良性能,简化了动量项的使用。