Aug, 2022

量化自适应次梯度算法及其应用

TL;DR为了在分布式模型训练中平衡通信成本、模型容量和模型性能,本文提出了分布式训练的量化复合镜像下降自适应子梯度(QCMD adagrad)和量化正则化双均值自适应子梯度(QRDA adagrad)算法,利用梯度量化和稀疏模型降低每次迭代中的通信成本,并构建一个基于梯度的量化自适应学习率矩阵来实现通信成本、准确性和模型稀疏性之间的平衡,同时采用了阈值量化策略来提高信噪比和保持模型的稀疏性。