使用低秩和低精度分解压缩大型语言模型

May, 2024

使用低秩和低精度分解压缩大型语言模型

Compressing Large Language Models using Low Rank and Low Precision Decomposition

Rajarshi Saha, Naomi Sagan, Varun Srivastava, Andrea J. Goldsmith, Mert Pilanci

TL;DRCALDERA 是一种新的后训练 LLM 压缩算法，通过近似低秩、低精度分解的权重矩阵近似表达模型，研究了压缩比和模型性能的权衡以及在小于 2.5 比特每参数的情况下相比现有的压缩技术的优越性。

Abstract

The prohibitive sizes of Large Language Models (LLMs) today make it difficult to deploy them on memory-constrained edge devices. This work introduces $\rm CALDERA$ -- a new post-training llm compression algorithm that harnesses the inherent →

llm compression algorithm low-rank structure quantization low-precision formats compression ratio

发现论文，激发创造

LORD：单语代码 LLM 的低秩分解用于一次性压缩

通过 Low Rank Decomposition (LoRD) 来压缩大型语言模型（LLMs）以及用于单语代码生成，能够大幅减少参数，提供速度提升，并且保持可微分性和可训练性，且与现有高效浮点矩阵内核兼容，具备潜力提高模型压缩效果。

Sep, 2023

基于选取：预训练大型语言模型的低秩分解与目标应用

通过低秩分解方法，我们可以削减大型语言模型的冗余组件，压缩模型大小并保持与最先进压缩技术相当的准确性。

May, 2024

语言模型中低秩分解的精度 - 效率权衡特征化

大规模语言模型的压缩方法如量化和参数修剪在减小模型的内存占用和流量上进行了积极探索，本研究通过对低秩分解方法，特别是 Tucker 分解，在近期语言模型上的研究，包括一个开源的语言模型 Llama 2，详细分析和评估了准确性和效率之间的平衡，结果表明在模型减小 9% 的情况下，最小的准确率下降为 4% 到 10%，此研究表明低秩分解可以成为大规模语言模型应用的有前途的方向。

May, 2024

基于特征的大型语言模型通过贝叶斯优化的低秩压缩

近年来，大型语言模型（LLMs）在自然语言处理方面取得了重要进展，但其规模的增大增加了计算负担，需要在效率和性能之间取得平衡。为了解决 LLMs 中低秩压缩的挑战，我们对大模型的低秩特性进行了实证研究，并提出了一种适用于 LLMs 的低秩压缩方法，该方法通过汇总协方差矩阵的特征分布精确估计和贝叶斯优化策略来分配低秩维度。我们在 LLaMA-2 模型上的实验表明，我们的方法在相同的压缩比下比现有的强结构剪枝和低秩压缩技术表现更佳，能够保持模型的性能。

May, 2024

大型语言模型的零数据压缩和降噪

基于大型语言模型的权重分解以及压缩方法，通过新的无需语料库参与、保持正交性的数据无关联 Rank-k 近似方法，成功压缩了 80% 的参数并保留了原始性能的 93.43%。同时，对经过 Rank-k 近似的权重矩阵进行了深入研究以验证假设。

Feb, 2024

LQ-LoRA: 用于语言模型微调的低秩加量化矩阵分解

我们提出了一种简单的方法来对预训练语言模型进行内存高效的适应。我们的方法使用迭代算法将每个预训练矩阵分解成高精度低秩部分和内存高效的量化部分。在微调过程中，量化部分保持固定，只有低秩部分被更新。我们提出了量化部分的整数线性规划形式，可以在总体存储器预算的情况下动态配置量化参数（例如，位宽，块大小）给每个矩阵。我们进一步探索了数据感知版本的算法，该算法使用 Fisher 信息矩阵的近似来加权矩阵分解过程中的重构目标。在适应 RoBERTa 和 LLaMA-2（7B 和 70B）的实验中，我们的低秩加量化矩阵分解方法（LQ-LoRA）优于 QLoRA 和 GPTQ-LoRA 基准，并且能实现更激进的量化。例如，在 OpenAssistant 基准测试中，LQ-LoRA 能够学习一个 2.5 位的 LLaMA-2 模型，与使用 4 位 QLoRA 微调的模型竞争。在语言建模校准数据集上微调时，LQ-LoRA 还可以用于模型压缩；在这种情况下，我们的 2.75 位 LLaMA-2-70B 模型（考虑了低秩部分的平均位数，并且需要 27GB 的 GPU 内存）与原始模型在全精度上竞争。

Nov, 2023

重新思考压缩：大型语言模型中潜在特征的简化建模

通过降阶建模和重参数化，本文提出了一种创新的大规模语言模型压缩方法，可在对内存和时间有严格限制的条件下，以逐层方式对十亿级模型进行压缩，与当前流行的结构化修剪方法相比，展现出卓越的效果。

Dec, 2023

基于低秩矩阵分解的文本分类在线嵌入压缩

本研究提出一种深度学习模型的压缩方法，利用低秩矩阵因式分解来压缩自然语言处理中的字词嵌入层，经过实验证明可以在 90% 的压缩比下保持精度不受影响，并且在句子分类任务上表现优于其他方法，同时还引入了一种新的学习率调度算法 CALR，其在句子分类基准测试中表现出优越性。

Nov, 2018

LQER: 低秩量化误差重建法用于 LLMs

本研究提出了一种通过低秩近似和量化相结合的方法，使用激活引起的比例矩阵将量化误差的奇异值分布调整到理想值，实现了在各种大型语言模型和相关任务上几乎无失真的 W4A8 量化，而无需知识蒸馏、网格搜索或基于梯度的迭代优化，并且与现有方法相比，计算模式中的 LQER 消除了从不规则内存位置收集高精度权重所需的专用 Scatter 和 Gather 过程，从而在六个热门任务上实现了接近无失真性能，同时使用的硬件资源比领先的最先进方法少 1.36 倍。

Feb, 2024

Delta-CoMe: 大型语言模型的无需训练的混合精度增量压缩

通过将细调的大语言模型进行分解和压缩，并采用混合精度的方法，我们提出了一个保持模型性能的增量量化方法，实验证明其在各种细调的语言模型中表现出与完整模型相当的性能，在低秩和低比特方法上也表现出明显优势，并且与其他基础语言模型兼容。

Jun, 2024