Mar, 2024

QuantTune: 自适应异常值驱动的模型量化优化

TL;DR我们的研究着重于发现 Transformer-based 模型在后训练线性量化过程中准确性下降的潜在原因,并提出了一种适用于量化的微调方法 QuantTune。该方法通过根据异常激活的偏差调整权重,有效控制了有问题激活的动态范围,从而在几种 Transformer-based 模型中实现了显著的后训练量化的改进。