线性线性模型中的准确分块量化

Mar, 2024

Accurate Block Quantization in LLMs with Outliers

Nikita Trukhanov, Ilya Soloveychik

TL;DR基于低精度 BFP 格式的通道重排方法在保证模型准确性的前提下，使内存占用减少 2 倍，且对推理延迟没有影响。

Abstract

The demand for inference on extremely large scale llms has seen enormous growth in the recent months. It made evident the colossal shortage of dedicated hardware capable of efficient and fast processing of the in

llms hardware quantization techniques block floating point formats kv-cache storage

发现论文，激发创造

ZeroQuant-FP: 使用浮点格式的 LLM 后训练 W4A8 量化的飞跃

使用浮点量化在大型语言模型中表现出色，尤其是 FP8 和 FP4 的浮点数，在模型参数超过十亿时性能优势更加明显。对于权重量化来说，FP4 与 INT4 相比表现出可比、甚至更好的性能，简化了在支持 FP 的硬件上部署。对于通过权重和激活之间差异引起的精度对齐开销，我们提出了两个权重量化的缩放约束条件，对性能的影响微乎其微，与标准的 W4A8 模型相比。此外，我们还结合了低秩补偿（LoRC）策略来增强量化方法，特别适用于较小的模型。研究结果强调了浮点量化在大型语言模型中的巨大潜力，为资源受限环境中的高效部署铺平了道路。

Jul, 2023

CBQ：大型语言模型的跨块量化

基于交叉块重建的后训练量化方法 (CBQ) 通过优化量化参数和降低重构困难来提高大规模语言模型的效率和性能。

Dec, 2023

AFPQ: 非对称浮点量化用于 LLMs

通过使用不对称 FP 量化方法，我们提出了一种改进的量化方法，可以在大语言模型中提高准确性，且无需额外存储空间。

Nov, 2023

整数还是浮点数？大语言模型低比特量化的新展望

本研究比较研究了 INT 和 FP 低位量化在 LLMs 中的优劣，发现由于张量分布的复杂性和异质性，最优量化格式因层而异，提出了 MoFQ，这种简单易行的方法在各种任务中取得了最新的最佳结果，并且在不引入硬件开销的情况下具有显著的性能改进。

May, 2023

LLM-FP4: 4 位浮点数量化变压器

我们提出了 LLM-FP4，在训练后将大型语言模型（LLM）的权重和激活量化为 4 位浮点数值。

Oct, 2023

再探基于块的量化：子 8 位低精度设备基于块的推理中的重要因素

通过使用块量化技术，本研究实现了基于大型语言模型（LLMs）的几乎无损 6 位量化，与浮点数基准相比算术密度增加了 19 倍，内存密度增加了 5 倍，超过了之前 8 位量化的先前技术。同时，介绍了子 8 位 LLM 量化的关键见解，包括激活和权重分布之间的不匹配、最佳的微调策略，以及 LLMs 统计属性中固有的较低量化粒度。该研究提出的框架将在发表后开源。

Oct, 2023

基于分块定点算术的卷积神经网络加速器设计中的计算误差分析

本文在不重新训练的情况下测试了几种经典的卷积神经网络 (CNN) 模型，验证了使用块浮点算法 (BFP) 在 CNN 加速器中定义字宽的效果，并探究了理论计算误差，提出了噪声信号比（NSR）的上限，为基于 BFP 的 CNN 引擎设计提供了有价值的指导。

Sep, 2017

I-LLM：针对完全量化低位大型语言模型的高效整数推断

该研究论文通过提出一种新型的整数化后训练量化框架 (I-LLM)，解决了大语言模型在部署边缘和云设备上仍需要大量浮点运算的问题。实验证明，I-LLM 在保持准确性的前提下，可以以 W4A4 进行操作，优于其他非整数量化方法。

May, 2024

FlattenQuant: 通过 Per-tensor 量化来突破大型语言模型的推断计算限制

使用 FlattenQuant 方法在大型语言模型中实现低比特量化，通过将张量中的大通道展平以显著减少张量的最大值，本方法能够直接使用 4 位来实现 LLMs 中线性层计算的 48.29%，并使用 8 位来处理其余层，从而实现高达 2 倍的速度提升和 2.3 倍的内存减少，而准确度损失微不足道。

Feb, 2024

QLLM：用于大型语言模型的准确高效低比特量化

通过自适应通道重组技术，QLLM 提出了一种准确高效的低精度模型量化方法，实现了对大规模语言模型的低精度量化，并在 LLaMA-2 上相较于之前最先进的方法提高了 7.89% 的平均准确率。

Oct, 2023