Jun, 2023

使用四位整数训练变压器

TL;DR本文提出了一种使用 INT4 算法进行 transformer 训练的方法,以实现低精度的前向和后向传播,并通过 Hadamard 量化器和位分裂等技术处理异常值和稀疏梯度,从而实现在当前型号 GPU 上完成快速的模型训练。