EMNLPJun, 2024

变量逐层量化:一种简单而有效的低比特量化迁移学习方法

TL;DR我们提出了一种简单的变量量化方法,该方法将大型语言模型的不同层在不同的比特级别上进行量化,通过将最重要的层量化为更高比特精度并将不太重要的层量化为较低比特以实现浮点量化级别。