本文提出了一种新的基于重新排序的量化方法 RPTQ,用于解决大规模语言模型序列的激活范围之间的不同,从而将其缩小到 3 位激活,减少存储和计算的开销。
Apr, 2023
本研究提出了一种新的基于W4A8的后训练量化方法,结合了现有的两种技术的优势,实现了4位权重量化和8位矩阵计算加速,在多个标准基准测试中获得最新的W4A8量化性能,为大型语言模型的实际应用提供了可能。
Aug, 2023
在本文中,我们介绍了一种称为norm tweaking的技术,可以作为当前PTQ方法的插件使用,以实现高精度并且具有成本效益的模型压缩。通过校准数据生成和通道级距离约束来更新归一化层的权重,我们的方法在权重量化和权重与激活联合量化方面取得了显著的改进,在2位量化情况下甚至达到与浮点数模型相同的精度水平。我们的简单有效的方法使其在实际应用中更加实用。
Sep, 2023
通过自适应通道重组技术,QLLM提出了一种准确高效的低精度模型量化方法,实现了对大规模语言模型的低精度量化,并在LLaMA-2上相较于之前最先进的方法提高了7.89%的平均准确率。
Oct, 2023
本研究提出了一种通过低秩近似和量化相结合的方法,使用激活引起的比例矩阵将量化误差的奇异值分布调整到理想值,实现了在各种大型语言模型和相关任务上几乎无失真的W4A8量化,而无需知识蒸馏、网格搜索或基于梯度的迭代优化,并且与现有方法相比,计算模式中的LQER消除了从不规则内存位置收集高精度权重所需的专用Scatter和Gather过程,从而在六个热门任务上实现了接近无失真性能,同时使用的硬件资源比领先的最先进方法少1.36倍。
Feb, 2024
L4Q是一种参数高效的量化感知训练算法,利用LLMs中学到的低秩适应性量化步长,实现对高精度模型的同时量化和微调,达到亚4位精度并保持与应用PEFT在量化模型上相当的训练时间。
大型语言模型经常遇到计算和存储需求增加的挑战,为此我们提出了一种名为LR-QAT的轻量级、存储高效的量化感知训练算法,通过使用低秩辅助权重、固定点或双包整数的强制转换运算符以及检查点等组件,我们可以在不牺牲预测性能的情况下节省内存,该方法可应用于多种量化设置并与多种PTQ技术无缝结合,有效提升模型性能并在内存使用上达到与全模型QAT相当的水平。
Jun, 2024
本研究解决了大规模语言模型(LLM)在部署和推断时面临的内存和带宽限制问题。我们提出了一种全新的向量后训练量化(VPTQ)方法,通过二阶优化改进量化算法,并提出有效的码本初始化算法,从而在达到极低比特量化的同时提高了模型准确性。实验结果表明,VPTQ在多个模型上显著降低了量化困惑度,并提高了推断吞吐量。
Sep, 2024
本文针对后训练压缩后大型语言模型的质量不可预测问题,进行了系统的实证研究,探讨了多种低精度张量数据类型的量化效果。研究发现,与局部损失景观特征相关的关键规模因子可以显著改善量化模型的性能预测,提供了新颖的统计模型框架,为这一领域填补了空白。
Oct, 2024
本研究解决了后训练阶段量化大型语言模型(LLMs)性能的不确定性问题,通过系统的实证研究确定了关键的缩放因素。这些因素帮助我们建立了一个统计模型,可以合理预测量化LLMs的表现,具有重要的实用价值。