VPTQ：大规模语言模型的极低比特向量后训练量化

Sep, 2024

VPTQ：大规模语言模型的极低比特向量后训练量化

VPTQ: Extreme Low-bit Vector Post-Training Quantization for Large Language Models

Yifei Liu, Jicheng Wen, Yang Wang, Shengyu Ye, Li Lyna Zhang...

TL;DR本研究解决了大规模语言模型（LLM）在部署和推断时面临的内存和带宽限制问题。我们提出了一种全新的向量后训练量化（VPTQ）方法，通过二阶优化改进量化算法，并提出有效的码本初始化算法，从而在达到极低比特量化的同时提高了模型准确性。实验结果表明，VPTQ在多个模型上显著降低了量化困惑度，并提高了推断吞吐量。

Abstract

Scaling model size significantly challenges the deployment and inference of Large Language Models (LLMs). Due to the redundancy in LLM weights, recent research has focused on pushing weight-only Quantization to e

发现论文，激发创造

LLM-QAT: 大型语言模型的无数据量化感知训练

通过提出一种数据无关的蒸馏方法，利用预训练模型生成的结果来实现对语言模型低位量化，包括权重、激活值和KV Cache，该方法比已有的基于训练后量化和无训练量化方法更适用于低精度位级下的大型语言模型。

May, 2023

规范微调：大型语言模型的高性能低位量化

在本文中，我们介绍了一种称为norm tweaking的技术，可以作为当前PTQ方法的插件使用，以实现高精度并且具有成本效益的模型压缩。通过校准数据生成和通道级距离约束来更新归一化层的权重，我们的方法在权重量化和权重与激活联合量化方面取得了显著的改进，在2位量化情况下甚至达到与浮点数模型相同的精度水平。我们的简单有效的方法使其在实际应用中更加实用。

Sep, 2023

QLLM：用于大型语言模型的准确高效低比特量化

通过自适应通道重组技术，QLLM提出了一种准确高效的低精度模型量化方法，实现了对大规模语言模型的低精度量化，并在LLaMA-2上相较于之前最先进的方法提高了7.89%的平均准确率。

Oct, 2023

BiLLM: 提高LLM后训练量化的极限

BiLLM是一种创新的1位后训练量化方案，定制了预训练的大型语言模型，实现了仅使用1.08位权重在各种LLM家族和评估指标上实现高准确度的推理，超过了LLM的SOTA量化方法。此外，BiLLM能够在单个GPU上在0.5小时内实现对拥有70亿权重的LLM的二值化过程，显示了令人满意的时间效率。

Feb, 2024

GPTVQ: LLM量化的维度福祉

在这项研究中，我们展示了通过增加量化维度可以显著改善神经网络量化的大小和准确性之间的权衡。我们提出了GPTVQ方法，一种新的快速方法，用于对大型语言模型（LLMs）进行训练后的向量量化（VQ），并在多列的量化和未量化权重更新之间交错使用每层输出重建MSE的Hessian信息。通过使用数据感知的EM算法的高效版本初始化码本，然后使用整数量化和基于SVD的压缩来进行进一步压缩。GPTVQ在诸如Llama-v2和Mistral之类的各种LLMs上建立了新的最先进的大小与准确性权衡状态。此外，我们的方法高效：在单个H100上处理Llamav2-70B模型需要3到11个小时，具体取决于量化设置。最后，通过对移动CPU上的VQ解压缩进行设备上的计时，我们显示VQ相比于使用4位整数格式可以提供改进的延迟。

Feb, 2024

I-LLM：针对完全量化低位大型语言模型的高效整数推断

该研究论文通过提出一种新型的整数化后训练量化框架(I-LLM)，解决了大语言模型在部署边缘和云设备上仍需要大量浮点运算的问题。实验证明，I-LLM在保持准确性的前提下，可以以W4A4进行操作，优于其他非整数量化方法。

May, 2024

EfficientQAT: 大型语言模型的高效量化感知训练

使用EfficientQAT，一种新的量化技术，可以通过压缩大型语言模型来减少内存需求，同时保持较低的精度损失。

Jul, 2024

LRQ：通过学习低秩权重缩放矩阵优化大型语言模型的后训练量化

通过使用低秩权重缩放矩阵代替常规的全权重缩放矩阵，我们提出了一种低秩量化方法（LRQ），可以在大规模语言模型中取得更高的压缩性能和推断效率，提高量化语言模型的泛化能力。

Jul, 2024

ABQ-LLM：大型语言模型的任意位量化推理加速

本研究解决了大型语言模型推理中由于内存和计算需求高而导致的应用限制，通过引入一种新型的任意位量化算法和推理框架ABQ-LLM。该框架在不同量化设置下表现出色，并能够高效实现任意精度的量化推理，显著提高了 GPU 上低比特宽度执行的性能。最重要的发现是，ABQ-LLM在LLaMA-7B模型上的 W2*A8 量化配置下，获得了比以往方法更高的加速和内存压缩效果。

Aug, 2024

大型语言模型压缩基础 - 第1部分：权重量化

本研究解决了大型语言模型在资源受限设备上部署和降低计算成本的问题，提出了一种基于凸优化的权重量化方法CVXQ，超越了以往的技术。研究显著发现，该方法能够灵活地将模型压缩到任何指定大小，并适用于包含数千亿权重参数的模型。

Sep, 2024