CBQ：大型语言模型的跨块量化

Dec, 2023

CBQ: Cross-Block Quantization for Large Language Models

Xin Ding, Xiaoyu Liu, Yun Zhang, Zhijun Tu, Wei Li...

TL;DR基于交叉块重建的后训练量化方法 (CBQ) 通过优化量化参数和降低重构困难来提高大规模语言模型的效率和性能。

Abstract

post-training quantization (PTQ) has driven attention to producing efficient large language models (LLMs) with ultra-low costs. Since hand-craft quantization parameters lead to low performance in →

post-training quantization large language models efficiency reconstruction low-bit quantization

发现论文，激发创造

QLLM：用于大型语言模型的准确高效低比特量化

通过自适应通道重组技术，QLLM 提出了一种准确高效的低精度模型量化方法，实现了对大规模语言模型的低精度量化，并在 LLaMA-2 上相较于之前最先进的方法提高了 7.89% 的平均准确率。

Oct, 2023

评估量化的大型语言模型

本论文通过对 PTQ 技术在 11 个模型家族的综合评估，系统总结了量化对权重、激活函数和 KV Cache 的影响，提供了应用量化技术的建议，指出了未来的研究方向。

Feb, 2024

FPTQ：大型语言模型的细粒度后训练量化

本研究提出了一种新的基于 W4A8 的后训练量化方法，结合了现有的两种技术的优势，实现了 4 位权重量化和 8 位矩阵计算加速，在多个标准基准测试中获得最新的 W4A8 量化性能，为大型语言模型的实际应用提供了可能。

Aug, 2023

通过权重和激活量化提升大型语言模型的计算效率

该研究探讨了大型语言模型的后训练量化，特别是 4 位权重和 8 位激活（W4A8）量化，以提高计算效率，介绍了激活量化感知的缩放（AQAS）和序列长度感知的校准（SLAC）等创新技术，并引入了整数和非规格化表示的混合数据格式（dINT）来解决 W4A8 量化中的下溢问题，并通过对 LLMs 的严格评估证明这些技术显著提高了任务准确度，并且与完整精度模型相当，通过与 dINT 兼容的算术单元的开发，进一步证实了该方法相对于 8 位整数 MAC 单元可以提升 2 倍硬件效率。

Nov, 2023

L4Q：大型语言模型的参数高效量化感知训练：基于 LoRA-wise LSQ

L4Q 是一种参数高效的量化感知训练算法，利用 LLMs 中学到的低秩适应性量化步长，实现对高精度模型的同时量化和微调，达到亚 4 位精度并保持与应用 PEFT 在量化模型上相当的训练时间。

Feb, 2024

RPTQ: 基于重排序的后训练量化方法用于大型语言模型

本文提出了一种新的基于重新排序的量化方法 RPTQ，用于解决大规模语言模型序列的激活范围之间的不同，从而将其缩小到 3 位激活，减少存储和计算的开销。

Apr, 2023

LLM 的低秩量化感知训练

大型语言模型经常遇到计算和存储需求增加的挑战，为此我们提出了一种名为 LR-QAT 的轻量级、存储高效的量化感知训练算法，通过使用低秩辅助权重、固定点或双包整数的强制转换运算符以及检查点等组件，我们可以在不牺牲预测性能的情况下节省内存，该方法可应用于多种量化设置并与多种 PTQ 技术无缝结合，有效提升模型性能并在内存使用上达到与全模型 QAT 相当的水平。

Jun, 2024

线性线性模型中的准确分块量化

基于低精度 BFP 格式的通道重排方法在保证模型准确性的前提下，使内存占用减少 2 倍，且对推理延迟没有影响。

Mar, 2024

COMQ：一种免反向传播的用于后训练量化的算法

采用了一种创新的 PTQ 算法 COMQ，通过逐层坐标最小化重构误差，使得精简后的模型在不损失原始准确性的情况下高效部署

Mar, 2024

语言任务后训练量化方法的实证评估

通过分别实验评估了三种量化方法（LQ，ACIQ 和 OCS）对 BERT-Base 和 BERT-Large, 研究表明 OCS 可以将 BERT-Base 和 BERT-Large 量化为 3 位，并在 GLUE 基准测试中保持 98％和 96％的性能，为资源受限环境中模型调整提供指导。

Oct, 2022