Feb, 2024
LQER: 低秩量化误差重建法用于LLMs
LQER: Low-Rank Quantization Error Reconstruction for LLMs
TL;DR本研究提出了一种通过低秩近似和量化相结合的方法,使用激活引起的比例矩阵将量化误差的奇异值分布调整到理想值,实现了在各种大型语言模型和相关任务上几乎无失真的W4A8量化,而无需知识蒸馏、网格搜索或基于梯度的迭代优化,并且与现有方法相比,计算模式中的LQER消除了从不规则内存位置收集高精度权重所需的专用Scatter和Gather过程,从而在六个热门任务上实现了接近无失真性能,同时使用的硬件资源比领先的最先进方法少1.36倍。