Aug, 2024

1位完全量化训练:将完全量化训练推向1位的极限

TL;DR本研究针对完全量化训练(FQT)中的精度极限问题,首次提出1位FQT方法。通过理论分析,我们揭示了梯度方差对FQT收敛性的影响,并提出了激活梯度修剪(AGP)策略以优化梯度性能。我们的算法在多个数据集上与每样本量化相比,平均提高了约6%的准确率,并在训练速度上实现了最高5.13倍的加速。