BriefGPT.xyz
Ask
alpha
关键词
optimizer states
搜索结果 - 3
从长尾分布中持续学习众多任务
该论文研究了具有大量任务的持续学习算法在长尾任务序列中的性能,并探讨了优化器状态作为提高持续学习性能的一种因素。通过维护来自先前任务的第二矩的加权平均,论文提出的方法有效减少遗忘,同时在现有的持续学习算法中取得改进。
PDF
3 months ago
具有 4 位状态的内存高效优化器
通过详细的经验分析,本研究将优化器状态位宽降到 4 位,通过更好的量化方法,解决了动量中的离群值问题和二阶动量的零点问题,从而在自然语言理解、机器翻译、图像分类和指令优化等任务中实现了与全精度对应方法相当的准确性,同时提高了内存效率。
PDF
10 months ago
使用 Adam 累积减少大规模 DNN 训练中活化和梯度的内存占用
研究了大规模 DNN 训练中 GPU 内存问题,提出了一种名为 AdamA 的优化器累加方法,能同时减少激活内存和梯度内存的占用,与 Adam 相比性能不差,能在 PyTorch 和 DeepSpeed 等框架下使用。
PDF
a year ago
Prev
Next