May, 2023
使用 Adam 累积减少大规模 DNN 训练中活化和梯度的内存占用
Adam Accumulation to Reduce Memory Footprints of both Activations and Gradients for Large-scale DNN Training
Yijia Zhang, Yibo Han, Shijie Cao, Guohao Dai, Youshan Miao...
TL;DR研究了大规模 DNN 训练中 GPU 内存问题,提出了一种名为 AdamA 的优化器累加方法,能同时减少激活内存和梯度内存的占用,与 Adam 相比性能不差,能在 PyTorch 和 DeepSpeed 等框架下使用。