Aug, 2021

重新思考将梯度稀疏化作为总误差最小化问题

TL;DR通过考虑整个训练过程的通信复杂度模型,使用硬阈值稀疏化进行梯度压缩可以比 Top-k 稀疏化更加高效地减少通信成本,特别是在大型深度神经网络上。