Feb, 2021

1-bit Adam:高效通讯的 Adam 收敛速度大规模训练

TL;DR本文提出使用 1 位 Adam 方法和误差补偿压缩技术来提高通信效率和扩展性, 实验结果表明,该方法在 BERT 和 SQuAD 任务上能够显著加速训练,同时保证了收敛速度和压缩率。