SDQ：稀疏分解量化用于 LLM 推断

Jun, 2024

SDQ: Sparse Decomposed Quantization for LLM Inference

Geonhwa Jeong, Po-An Tsai, Stephen W. Keckler, Tushar Krishna

TL;DR借助 SDQ 的结构稀疏性和量化方法，可以实现高计算和内存效率，并且在性能上只有不到 1% 的质量损失。

Abstract

Recently, large language models (llms) have shown surprising performance in task-specific workloads as well as general tasks with the given prompts. However, to achieve unprecedented performance, recent

large language models llms model compression sdq quantization

发现论文，激发创造

SqueezeLLM：紧密稀疏量化

通过引入 SqueezeLLM 后训练的量化框架，该框架不仅实现了高达 3 位的无损压缩，还在相同的内存约束下实现了更高的量化性能，可以将羊毛出在羊身上，仿佛神器一般。

Jun, 2023

潜在扩散模型的高效量化策略

本研究提出了一种高效的量化策略，利用信噪比（SQNR）作为评估指标，将相对量化噪声视为噪声，识别模型中的敏感部分，并提出了既包括全局策略又包括局部策略的高效量化方法。实验结果表明，实施全局和局部策略能够高效地量化并有效地压缩 LDMs。

Dec, 2023

SpQR: 一种稀疏量化表示法，用于近无损 LLM 重量压缩

通过 Sparse-Quantized Representation（SpQR）压缩 LLMs，提出全新的压缩格式和量化技术，通过将所有其他权重压缩到 3-4 位并将异常权重以高精度存储以解决精度问题，既能保存模型的准确性，又能达到先前方法相似的压缩水平，该方法的运行速度要比 16 位基线快，并实现超过 4 倍的内存压缩收益。

Jun, 2023

大型语言模型的量化策略的全面评估

对大型语言模型的量化技术进行研究，发现 4 位量化的语言模型可以在大部分基准测试中保持与非量化模型相当的性能，并且困惑度可以作为量化语言模型的代理度量。然而，量化也会影响推断速度，因此在优化解码速度和内存消耗方面需要进行大量工程努力和硬件支持。

Feb, 2024

关于量化大型语言模型的可压缩性

通过应用数据压缩技术来减少数据传输，从而提高在内存受限设备上量化化的大型语言模型推理的速度。

Mar, 2024

压缩 LLMs：真实很少纯粹而简单

尽管现代大型语言模型在取得显著成就的同时遇到了过高的计算和内存占用问题，但最近的研究工作展示了基于裁剪和量化的无需训练和无需数据的压缩方法在压缩大型语言模型方面取得了显著成功。本研究介绍了一种名为 LLM-KICK 的压缩语言模型评估协议，通过其揭示了当前最先进的压缩方法的优点和缺点，并展示了稀疏化和量化对于语言理解、推理、生成、检索和摘要等任务的影响。我们希望这项研究能够促进更好的语言模型压缩方法的发展。

Oct, 2023

大型语言模型的极端压缩：基于加性量化

该研究中，我们将经典的多码本量化方法应用于语言模型的压缩，实现了对开放式大规模语言模型的极端压缩，提高了在给定压缩预算下的准确性。

Jan, 2024

可部署的 LLM 压缩加速之旅

通过硬件为中心的方法，我们的压缩方法在硬件加速的基础上构建了一种新的 W4A8 内核实现，具有量化策略的综合配方，通过广泛的实验证明了我们的 W4A8 方法对于 Hugging Face FP16 推断的实际加速效果为 4 倍，对于 TensorRT-LLM 推断引擎的 FP16 加速效果为 2.23 倍，对于 TensorRT-LLM 推断引擎的 INT8 加速效果为 1.45 倍，且不会对性能造成实质性的损害。

Nov, 2023

动态存储量化用于高效的 Transformer 训练

本文提出一种新颖的动态存储量化策略，Dynamic Stashing Quantization（DSQ），旨在减少内存操作，并享受低精度训练的其他好处，比如减少运算成本，通过在两个翻译任务和三个分类任务上的研究表明，DSQ 在 IWSLT17 上将算术操作的数量降低了 20.95 倍，并将 DRAM 操作数量降低了 2.55 倍，这为大语言模型在设备学习中的部署提供了解决方案。

Mar, 2023

自我蒸馏量化：在基于 Transformer 的语言模型中实现高压缩率

通过后训练量化和量化意识训练来研究 Transformer 语言模型的概括化效果。提出了一种称为自身蒸馏量化（SDQ）的方法，该方法最小化积累的量化误差，并优于基线。将 SDQ 应用于多语言模型 XLM-R-Base 和 InfoXLM-Base，并证明两个模型可以从 32 位浮点权重减少到 8 位整数权重，同时在 XGLUE 基准上保持高水平的性能。我们的结果还突出了量化多语言模型的挑战，这些模型必须概括他们没有针对性微调的语言。

Jul, 2023