ICLROct, 2021

基于块状量化的 8 位优化器

TL;DR本文开发了首个使用 8 位统计量进行训练的优化器,采用了分块动态量化进行加速,同时结合了非线性优化和嵌入层技术以提高精度和稳定性,并在一系列任务中展现了较高的性能和较小的内存占用。