一种适用于所有的 QuantLLM: 为高效部署而进行的量化 LLM 微调

May, 2024

一种适用于所有的 QuantLLM: 为高效部署而进行的量化 LLM 微调

One QuantLLM for ALL: Fine-tuning Quantized LLMs Once for Efficient Deployments

Ke Yi, Yuhui Xu, Heng Chang, Chen Tang, Yuan Meng...

TL;DR利用一次训练的一揽子模型，通过去耦合共享权重、使用低秩适配器、调节采样率等方式，减少大型语言模型的内存需求和训练时间，同时保持高性能。

Abstract

large language models (LLMs) have advanced rapidly but face significant memory demands. While quantization has shown promise for LLMs, current methods typically require lengthy training to alleviate the performan

large language models quantization once-for-all framework low-rank adapters deployment time

发现论文，激发创造

QLLM：用于大型语言模型的准确高效低比特量化

通过自适应通道重组技术，QLLM 提出了一种准确高效的低精度模型量化方法，实现了对大规模语言模型的低精度量化，并在 LLaMA-2 上相较于之前最先进的方法提高了 7.89% 的平均准确率。

Oct, 2023

LLM 的低秩量化感知训练

大型语言模型经常遇到计算和存储需求增加的挑战，为此我们提出了一种名为 LR-QAT 的轻量级、存储高效的量化感知训练算法，通过使用低秩辅助权重、固定点或双包整数的强制转换运算符以及检查点等组件，我们可以在不牺牲预测性能的情况下节省内存，该方法可应用于多种量化设置并与多种 PTQ 技术无缝结合，有效提升模型性能并在内存使用上达到与全模型 QAT 相当的水平。

Jun, 2024

任意精度 LLM：低成本部署多个不同大小的 LLM

该研究论文介绍了 Any-Precision LLM 的概念，并提出了一种轻量级的 Any-Precision 量化方法，以及对应的软件引擎，有效地解决了多个不同大小 LLM 的部署成本问题。

Feb, 2024

LLM-QAT: 大型语言模型的无数据量化感知训练

通过提出一种数据无关的蒸馏方法，利用预训练模型生成的结果来实现对语言模型低位量化，包括权重、激活值和 KV Cache，该方法比已有的基于训练后量化和无训练量化方法更适用于低精度位级下的大型语言模型。

May, 2023

大型语言模型的量化策略的全面评估

对大型语言模型的量化技术进行研究，发现 4 位量化的语言模型可以在大部分基准测试中保持与非量化模型相当的性能，并且困惑度可以作为量化语言模型的代理度量。然而，量化也会影响推断速度，因此在优化解码速度和内存消耗方面需要进行大量工程努力和硬件支持。

Feb, 2024

LLM-QBench: 大型语言模型后训练量化最佳实践基准测试

探索量化大型语言模型的最佳实践，平衡性能与计算效率。通过基准测试和实验，提出了与标定数据、量化算法和量化方案相对应的三个关键点，并构建了最佳的 LLM PTQ 流水线。

May, 2024

LoQT: 低秩适配模块用于量化训练

LoQT 是一种用于高效训练量化模型的方法，它使用基于梯度的张量分解来初始化可训练的低秩权重矩阵，并周期性地合并到量化全秩权重矩阵中。我们发现 LoQT 使得在消费级 24GB GPU 上能够高效地训练高达 7B 参数的模型，并且还展示了在相同硬件上使用逐层梯度更新训练 13B 参数模型的可行性。

May, 2024

SqueezeLLM：紧密稀疏量化

通过引入 SqueezeLLM 后训练的量化框架，该框架不仅实现了高达 3 位的无损压缩，还在相同的内存约束下实现了更高的量化性能，可以将羊毛出在羊身上，仿佛神器一般。

Jun, 2023

EasyQuant: 一种高效无数据量化算法用于 LLMs

本研究提出了 EasyQuant，这是一种训练免费且独立于数据的权重量化算法，旨在实现对大型语言模型（LLMs）的几乎无损量化性能，且算法运行速度比依赖于数据的方法快 10 倍以上。

Mar, 2024

QFT：量子化的低资源 LLM 全参数调整

提出了一种名为 QFT 的新型量化全参数调优框架，可以实现内存高效调优而不损害性能。该框架采用高效的 Lion 优化器和整数值量化的模型状态存储方法，并提供了梯度流和参数更新方案。结果表明，QFT 将模型状态内存减少到标准解决方案的 21%，同时达到可比较的性能，例如，调优 LLaMA-7B 模型仅需 30GB 内存，一张 A6000 GPU 即可满足。

Oct, 2023