May, 2023

使用 Adam 累积减少大规模 DNN 训练中活化和梯度的内存占用

TL;DR研究了大规模 DNN 训练中 GPU 内存问题,提出了一种名为 AdamA 的优化器累加方法,能同时减少激活内存和梯度内存的占用,与 Adam 相比性能不差,能在 PyTorch 和 DeepSpeed 等框架下使用。