Sep, 2023

规范微调:大型语言模型的高性能低位量化

TL;DR在本文中,我们介绍了一种称为 norm tweaking 的技术,可以作为当前 PTQ 方法的插件使用,以实现高精度并且具有成本效益的模型压缩。通过校准数据生成和通道级距离约束来更新归一化层的权重,我们的方法在权重量化和权重与激活联合量化方面取得了显著的改进,在 2 位量化情况下甚至达到与浮点数模型相同的精度水平。我们的简单有效的方法使其在实际应用中更加实用。