Sep, 2023

具有 4 位状态的内存高效优化器

TL;DR通过详细的经验分析,本研究将优化器状态位宽降到 4 位,通过更好的量化方法,解决了动量中的离群值问题和二阶动量的零点问题,从而在自然语言理解、机器翻译、图像分类和指令优化等任务中实现了与全精度对应方法相当的准确性,同时提高了内存效率。