规范微调：大型语言模型的高性能低位量化

Sep, 2023

规范微调：大型语言模型的高性能低位量化

Norm Tweaking: High-performance Low-bit Quantization of Large Language Models

Liang Li, Qingyuan Li, Bo Zhang, Xiangxiang Chu

TL;DR在本文中，我们介绍了一种称为norm tweaking的技术，可以作为当前PTQ方法的插件使用，以实现高精度并且具有成本效益的模型压缩。通过校准数据生成和通道级距离约束来更新归一化层的权重，我们的方法在权重量化和权重与激活联合量化方面取得了显著的改进，在2位量化情况下甚至达到与浮点数模型相同的精度水平。我们的简单有效的方法使其在实际应用中更加实用。

Abstract

As the size of large language models (LLMs) continues to grow, model compression without sacrificing accuracy has become a crucial challenge for deployment. While some →

发现论文，激发创造

FPTQ：大型语言模型的细粒度后训练量化

本研究提出了一种新的基于W4A8的后训练量化方法，结合了现有的两种技术的优势，实现了4位权重量化和8位矩阵计算加速，在多个标准基准测试中获得最新的W4A8量化性能，为大型语言模型的实际应用提供了可能。

Aug, 2023

QuantEase: 基于优化的语言模型量化 -- 一种高效直观的算法

本研究采用Coordinate Descent（CD）技术，通过QuantEase分层量化框架对Large Language Models（LLMs）进行后训练量化，包括离群值感知算法，以实现近乎3位量化并提高模型性能。

Sep, 2023

QLLM：用于大型语言模型的准确高效低比特量化

通过自适应通道重组技术，QLLM提出了一种准确高效的低精度模型量化方法，实现了对大规模语言模型的低精度量化，并在LLaMA-2上相较于之前最先进的方法提高了7.89%的平均准确率。

Oct, 2023

LLM-QBench: 大型语言模型后训练量化最佳实践基准测试

探索量化大型语言模型的最佳实践，平衡性能与计算效率。通过基准测试和实验，提出了与标定数据、量化算法和量化方案相对应的三个关键点，并构建了最佳的LLM PTQ流水线。

May, 2024

结合多种后训练技术实现最高效的量化LLMs

通过 quantization 技术，结合 SmoothQuant 和 GPTQ 两种 post-training 技术，将模型量化为 MX 格式，能够显著减小优化型模型大小至多 4 倍，提高 LLaMA 模型大小至多 3 倍，同时仅仅增加 1-3% 的困惑度。

May, 2024

I-LLM：针对完全量化低位大型语言模型的高效整数推断

该研究论文通过提出一种新型的整数化后训练量化框架(I-LLM)，解决了大语言模型在部署边缘和云设备上仍需要大量浮点运算的问题。实验证明，I-LLM在保持准确性的前提下，可以以W4A4进行操作，优于其他非整数量化方法。

May, 2024

LRQ：通过学习低秩权重缩放矩阵优化大型语言模型的后训练量化

通过使用低秩权重缩放矩阵代替常规的全权重缩放矩阵，我们提出了一种低秩量化方法（LRQ），可以在大规模语言模型中取得更高的压缩性能和推断效率，提高量化语言模型的泛化能力。

Jul, 2024

ABQ-LLM：大型语言模型的任意位量化推理加速

本研究解决了大型语言模型推理中由于内存和计算需求高而导致的应用限制，通过引入一种新型的任意位量化算法和推理框架ABQ-LLM。该框架在不同量化设置下表现出色，并能够高效实现任意精度的量化推理，显著提高了 GPU 上低比特宽度执行的性能。最重要的发现是，ABQ-LLM在LLaMA-7B模型上的 W2*A8 量化配置下，获得了比以往方法更高的加速和内存压缩效果。

Aug, 2024

VPTQ：大规模语言模型的极低比特向量后训练量化

本研究解决了大规模语言模型（LLM）在部署和推断时面临的内存和带宽限制问题。我们提出了一种全新的向量后训练量化（VPTQ）方法，通过二阶优化改进量化算法，并提出有效的码本初始化算法，从而在达到极低比特量化的同时提高了模型准确性。实验结果表明，VPTQ在多个模型上显著降低了量化困惑度，并提高了推断吞吐量。

Sep, 2024

ASER：用于大型语言模型量化的激活平滑与误差重建

本研究解决了大型语言模型（LLM）量化中有效低位量化的挑战，提出了一种新颖的ASER算法，通过强化量化后的误差重建和激活平滑来改善模型性能。实验结果表明，ASER在保持准确性的同时，能够将典型的LLM量化为低位模型，并在最先进的量化算法中表现出竞争力。

Nov, 2024