Feb, 2021
1-bit Adam:高效通讯的 Adam 收敛速度大规模训练
1-bit Adam: Communication Efficient Large-Scale Training with Adam's Convergence Speed
Hanlin Tang, Shaoduo Gan, Ammar Ahmad Awan, Samyam Rajbhandari, Conglong Li...
TL;DR本文提出使用 1 位 Adam 方法和误差补偿压缩技术来提高通信效率和扩展性, 实验结果表明,该方法在 BERT 和 SQuAD 任务上能够显著加速训练,同时保证了收敛速度和压缩率。