Oct, 2024

GWQ:针对大语言模型的梯度感知权重量化

TL;DR本研究解决了大语言模型在资源受限设备上部署时的性能下降问题。提出的梯度感知权重量化(GWQ)方法通过利用梯度信息局部化异常值,仅需少量校准数据便可检测异常,显著提高了不同语言模型的量化性能,并在多个任务上超越了现有方法。最重要的发现是,GWQ在保证精度的同时实现了推理速度的提升和内存利用的有效减少。