EMNLPNov, 2023

通过权重和激活量化提升大型语言模型的计算效率

TL;DR该研究探讨了大型语言模型的后训练量化,特别是 4 位权重和 8 位激活(W4A8)量化,以提高计算效率,介绍了激活量化感知的缩放(AQAS)和序列长度感知的校准(SLAC)等创新技术,并引入了整数和非规格化表示的混合数据格式(dINT)来解决 W4A8 量化中的下溢问题,并通过对 LLMs 的严格评估证明这些技术显著提高了任务准确度,并且与完整精度模型相当,通过与 dINT 兼容的算术单元的开发,进一步证实了该方法相对于 8 位整数 MAC 单元可以提升 2 倍硬件效率。