从 Llama2 7B 权重的无损（~1.5:1）压缩算法到 CNNs 和 LLMs 的可变精度、可变范围、压缩数值数据类型

Apr, 2024

从 Llama2 7B 权重的无损（~1.5:1）压缩算法到 CNNs 和 LLMs 的可变精度、可变范围、压缩数值数据类型

From a Lossless (~1.5:1) Compression Algorithm for Llama2 7B Weights to Variable Precision, Variable Range, Compressed Numeric Data Types for CNNs and LLMs

PDF

Vincenzo Liguori

TL;DR这篇论文介绍了一种简单的无损压缩算法，用于处理大型语言模型的权重，可在 AMD FPGAs 中实现，并能每秒处理超过 8 亿个 bfloat16 数字。该算法被扩展应用于可变精度、可变范围的数值数据类型，并讨论了基于 ANS（非对称数系统）的硬件实现方法，该方法在实现数据格式的灵活性和计算引擎之间起到了桥梁作用，并实现了带宽的降低。同时，还给出了使用权重压缩和共享的令牌生成器的示例。

Abstract

This paper starts with a simple lossless ~1.5:1 compression algorithm for the weights of the large language model (LLM) Llama2 7B [1] that can be implemented in ~200 LUTs in AMD FPGAs, processing over 800 million bfloat16 numbers per second. This framework is then extended to

lossless compression large language model variable precision variable range ans

发现论文，激发创造

Weightless：深度神经网络压缩的有损权重编码

提出一种名为 Weightless 的新颖方案，其基于 Bloomier 过滤器并结合传统压缩技术，在不影响模型准确性的前提下，可以将深度神经网络的内存占用降低至原来的 1/496，较现有技术获得了 1.51 倍的提升。

Nov, 2017

在 GPU 上实现快速 2 位硬件离线量化低内存映射：内存对齐、稀疏离群值和异步解量化

通过以较小的计算代价解决对大型语言模型（LLMs）进行量化和去量化操作时所面临的问题，我们提出了一种新的技术，并在不同模型和尺寸上进行了广泛实验，成功实现了每个权重的 2.85 位表示，模型的端到端加速比为 1.74 倍，同时降低了运行成本和硬件需求。

Nov, 2023

大型语言模型的极端压缩：基于加性量化

该研究中，我们将经典的多码本量化方法应用于语言模型的压缩，实现了对开放式大规模语言模型的极端压缩，提高了在给定压缩预算下的准确性。

Jan, 2024

LLMZip：使用大语言模型的无损文本压缩

使用大型语言模型 LLaMA-7B，我们给出了一组英文熵的渐进上界估计，并基于该估计提出了一种结合大型语言模型和无损压缩方案的英文文本无损压缩算法，初步结果显示出优于 BSC，ZPAQ 和 paq8h 等现有文本压缩方案的性能。

Jun, 2023

大型语言模型的零数据压缩和降噪

基于大型语言模型的权重分解以及压缩方法，通过新的无需语料库参与、保持正交性的数据无关联 Rank-k 近似方法，成功压缩了 80% 的参数并保留了原始性能的 93.43%。同时，对经过 Rank-k 近似的权重矩阵进行了深入研究以验证假设。

Feb, 2024

Delta-CoMe: 大型语言模型的无需训练的混合精度增量压缩

通过将细调的大语言模型进行分解和压缩，并采用混合精度的方法，我们提出了一个保持模型性能的增量量化方法，实验证明其在各种细调的语言模型中表现出与完整模型相当的性能，在低秩和低比特方法上也表现出明显优势，并且与其他基础语言模型兼容。

Jun, 2024

SpQR: 一种稀疏量化表示法，用于近无损 LLM 重量压缩

通过 Sparse-Quantized Representation（SpQR）压缩 LLMs，提出全新的压缩格式和量化技术，通过将所有其他权重压缩到 3-4 位并将异常权重以高精度存储以解决精度问题，既能保存模型的准确性，又能达到先前方法相似的压缩水平，该方法的运行速度要比 16 位基线快，并实现超过 4 倍的内存压缩收益。

Jun, 2023

SmoothQuant+: 精确高效的 LLM 后训练 4 位权重量化

提出了 SmoothQuant + 方法，它是一种准确而高效的 4 位权重量化方法，能够无损地减小大语言模型的内存开销，并且在精确度上没有损失。通过 SmoothQuant+，Code Llama-34B 模型能够在一张 A100 40GB GPU 上实现无损的准确度，并且相较于在两张 A100 40GB GPUs 上部署的 FP16 模型，能够提高 1.9 至 4.0 倍的吞吐量，每个 token 的延迟仅为 FP16 模型的 68%。这是已知的大语言模型 4 位权重量化的最先进方法。

Dec, 2023

压缩 LLMs：真实很少纯粹而简单

尽管现代大型语言模型在取得显著成就的同时遇到了过高的计算和内存占用问题，但最近的研究工作展示了基于裁剪和量化的无需训练和无需数据的压缩方法在压缩大型语言模型方面取得了显著成功。本研究介绍了一种名为 LLM-KICK 的压缩语言模型评估协议，通过其揭示了当前最先进的压缩方法的优点和缺点，并展示了稀疏化和量化对于语言理解、推理、生成、检索和摘要等任务的影响。我们希望这项研究能够促进更好的语言模型压缩方法的发展。

Oct, 2023

SqueezeLLM：紧密稀疏量化

通过引入 SqueezeLLM 后训练的量化框架，该框架不仅实现了高达 3 位的无损压缩，还在相同的内存约束下实现了更高的量化性能，可以将羊毛出在羊身上，仿佛神器一般。

Jun, 2023