Delta-CoMe: 大型语言模型的无需训练的混合精度增量压缩

Jun, 2024

Delta-CoMe: 大型语言模型的无需训练的混合精度增量压缩

Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models

Bowen Ping, Shuo Wang, Hanqing Wang, Xu Han, Yuzhuang Xu...

TL;DR通过将细调的大语言模型进行分解和压缩，并采用混合精度的方法，我们提出了一个保持模型性能的增量量化方法，实验证明其在各种细调的语言模型中表现出与完整模型相当的性能，在低秩和低比特方法上也表现出明显优势，并且与其他基础语言模型兼容。

Abstract

fine-tuning is a crucial process for adapting large language models (LLMs) to diverse applications. In certain scenarios, such as multi-tenant serving, deploying multiple LLMs becomes necessary to meet complex de

fine-tuning language models compression methods delta quantization performance

发现论文，激发创造

BitDelta：你的微调可能只相当于 1 个比特

通过将精调模型的权重分解为预训练组件和附加的增量，我们引入了一种简单的方法 BitDelta，成功地将该增量量化为 1 位而不影响性能，从而减少 GPU 内存需求，并在多租户环境中提高生成延迟。我们通过 Llama-2 和 Mistral 模型系列的实验证实了 BitDelta，在 70B 参数的模型上展示了在所有测试环境中性能降低最小。

Feb, 2024

大型语言模型的零数据压缩和降噪

基于大型语言模型的权重分解以及压缩方法，通过新的无需语料库参与、保持正交性的数据无关联 Rank-k 近似方法，成功压缩了 80% 的参数并保留了原始性能的 93.43%。同时，对经过 Rank-k 近似的权重矩阵进行了深入研究以验证假设。

Feb, 2024

ReALLM：LLM 压缩与微调的通用框架

一种新颖的方法 ReALLM 用于对预训练语言模型进行压缩和内存高效自适应，包括大多数的后训练量化和微调方法，用于 4 位以下的预算。

May, 2024

压缩 LLMs：真实很少纯粹而简单

尽管现代大型语言模型在取得显著成就的同时遇到了过高的计算和内存占用问题，但最近的研究工作展示了基于裁剪和量化的无需训练和无需数据的压缩方法在压缩大型语言模型方面取得了显著成功。本研究介绍了一种名为 LLM-KICK 的压缩语言模型评估协议，通过其揭示了当前最先进的压缩方法的优点和缺点，并展示了稀疏化和量化对于语言理解、推理、生成、检索和摘要等任务的影响。我们希望这项研究能够促进更好的语言模型压缩方法的发展。

Oct, 2023

DeltaZip：通过增量压缩提供多租户语言模型服务

通过提取和压缩模型与其预训练基础模型之间的差异，DeltaZip 是一种 LLM 服务系统，可以高效地同时提供多个全参数微调模型，压缩因子可达 6 倍至 8 倍，并且可以提高服务吞吐量 1.5 倍至 3 倍，相比于香草 HuggingFace 服务系统，可改善 SLO 达成率。

Dec, 2023

PV-Tuning：用于极高 LLM 压缩的超越直通估计的方法

该研究提出了 PV-Tuning，一个对于极端压缩语言模型的量化感知微调策略的表示无关框架，通过在实践中应用于 1-2 位矢量量化，PV-Tuning 在高性能模型如 Llama 和 Mistral 中优于先前的技术，实现了 Llama 2 系列模型每个参数 2 位的帕累托最优量化。

May, 2024

SqueezeLLM：紧密稀疏量化

通过引入 SqueezeLLM 后训练的量化框架，该框架不仅实现了高达 3 位的无损压缩，还在相同的内存约束下实现了更高的量化性能，可以将羊毛出在羊身上，仿佛神器一般。

Jun, 2023

基于选取：预训练大型语言模型的低秩分解与目标应用

通过低秩分解方法，我们可以削减大型语言模型的冗余组件，压缩模型大小并保持与最先进压缩技术相当的准确性。

May, 2024

FineQuant: 低精度量化后全连接网络权重细粒度优化

为了解决大型语言模型在实际应用中的内存需求和推断成本的问题，我们提出了一种高效的仅权重量化方法，通过减少内存消耗和加速推断来实现。我们引入了一种简单而有效的启发式方法，仅利用预训练模型的模型权重来确保最小质量降低。该方法适用于混合专家模型和密集模型，并且无需额外的微调。通过分析量化大型语言模型的挑战和问题，并采用自适应的量化粒度进行解决，我们展示了我们提出的方法的有效性。此外，我们实现了高效的 GPU 矩阵乘法和解量化算法，支持 fp16 或 bf16 激活与 int8 或 int4 权重的乘法。我们在 OPT-175B 和内部混合专家模型等大规模开源模型上评估了我们的方法，展示了最小的准确性损失，并在相同数量的 GPU 上实现了高达 3.65 倍的吞吐量。

Aug, 2023

LLM-QAT: 大型语言模型的无数据量化感知训练

通过提出一种数据无关的蒸馏方法，利用预训练模型生成的结果来实现对语言模型低位量化，包括权重、激活值和 KV Cache，该方法比已有的基于训练后量化和无训练量化方法更适用于低精度位级下的大型语言模型。

May, 2023