May, 2024

MicroAdam:精确的自适应优化方法,低空间开销和可证明收敛性

TL;DR提出了一种名为 MICROADAM 的 Adam 优化器新变种,它专门最小化内存开销,同时保持理论收敛性保证。通过在优化器状态之前压缩梯度信息来显著减少内存占用。使用分布式优化中的经典错误反馈机制来控制压缩误差,并实现实际的内存收益。证明了这种方法具有与 AMSGrad 相媲美的理论收敛性保证,并提供良好的实际性能。在 GPU 上有效实现的 MICROADAM 在百万级(BERT)和十亿级(LLaMA)模型上,与未压缩的 Adam 基准相比,提供了实用的竞争性收敛性,并具有更低的内存使用和类似的运行时间。