Jan, 2024

模型并行训练的激活和梯度压缩

TL;DR大型神经网络的模型并行训练中,同时压缩激活和梯度对收敛性的影响进行了探索,实验证明梯度对于压缩的要求比激活更低,使用 TopK 技术在推理阶段也需要进行压缩,误差反馈技术在模型并行训练中并没有提高性能,但在推理阶段允许无压缩的模型推理并且品质几乎没有下降,此外,使用 AQ-SGD 方法时,比 K=30% 更强的 TopK 会显著降低模型性能。