Oct, 2024

针对大型语言模型的通道级混合精度量化

TL;DR本研究针对大型语言模型在边缘设备部署中的高内存需求问题,提出了一种新的通道级混合精度量化方法(CMPQ),该方法依据激活分布以通道为单位分配量化精度。实验结果表明,CMPQ在整数位量化任务中提升了性能,并在适度增加内存使用的情况下,实现了显著的性能提升,展现了其在不同设备能力下的适应性和有效性。