eDKM：一种高效准确的大型语言模型训练时权重聚类

Sep, 2023

eDKM：一种高效准确的大型语言模型训练时权重聚类

eDKM: An Efficient and Accurate Train-time Weight Clustering for Large Language Models

Minsik Cho, Keivan A. Vahid, Qichen Fu, Saurabh Adya, Carlo C Del Mundo...

TL;DR提出了一种内存高效的 Differentiable KMeans Clustering 实现，eDKM，通过新技术降低 DKM 的内存占用量，成功将预训练的 LLaMA 7B 模型从 12.6 GB 压缩到 2.5 GB，并在广泛的 LLM 基准测试中提供良好的准确性。

Abstract

Since large language models or LLMs have demonstrated high-quality performance on many complex language tasks, there is a great interest in bringing these LLMs to mobile devices for faster responses and better privacy protection. However, the size of LLMs (i.e., billions of parameters)

large language models compression techniques weight-clustering differentiable kmeans clustering edkm

发现论文，激发创造

DKM: 可微分 K 均值聚类层用于神经网络压缩

该论文提出了一种基于不同 iable k-means 聚类层的 DNN 模型压缩方法，可以在保持模型架构和原损失函数不变的情况下，获得较高的压缩率和模型精度。实验证明，该方法在图像识别和自然语言处理任务上表现出较好的效果。

Aug, 2021

IDKM：通过隐式、可微分 $k$ 均值实现内存高效神经网络量化

使用隐式可微分 k-means 算法（IDKM）和无雅可比传播（IDKM-JFB）的变种，在与同样设置下，IDKM 在更短的计算时间和较少的内存使用下实现与 DKM 相当的性能，并将其应用于无法在 DKM 上训练的 Resnet18 神经网络。

Dec, 2023

大型语言模型的零数据压缩和降噪

基于大型语言模型的权重分解以及压缩方法，通过新的无需语料库参与、保持正交性的数据无关联 Rank-k 近似方法，成功压缩了 80% 的参数并保留了原始性能的 93.43%。同时，对经过 Rank-k 近似的权重矩阵进行了深入研究以验证假设。

Feb, 2024

压缩 LLMs：真实很少纯粹而简单

尽管现代大型语言模型在取得显著成就的同时遇到了过高的计算和内存占用问题，但最近的研究工作展示了基于裁剪和量化的无需训练和无需数据的压缩方法在压缩大型语言模型方面取得了显著成功。本研究介绍了一种名为 LLM-KICK 的压缩语言模型评估协议，通过其揭示了当前最先进的压缩方法的优点和缺点，并展示了稀疏化和量化对于语言理解、推理、生成、检索和摘要等任务的影响。我们希望这项研究能够促进更好的语言模型压缩方法的发展。

Oct, 2023

基于选取：预训练大型语言模型的低秩分解与目标应用

通过低秩分解方法，我们可以削减大型语言模型的冗余组件，压缩模型大小并保持与最先进压缩技术相当的准确性。

May, 2024

语言模型中低秩分解的精度 - 效率权衡特征化

大规模语言模型的压缩方法如量化和参数修剪在减小模型的内存占用和流量上进行了积极探索，本研究通过对低秩分解方法，特别是 Tucker 分解，在近期语言模型上的研究，包括一个开源的语言模型 Llama 2，详细分析和评估了准确性和效率之间的平衡，结果表明在模型减小 9% 的情况下，最小的准确率下降为 4% 到 10%，此研究表明低秩分解可以成为大规模语言模型应用的有前途的方向。

May, 2024

Delta-CoMe: 大型语言模型的无需训练的混合精度增量压缩

通过将细调的大语言模型进行分解和压缩，并采用混合精度的方法，我们提出了一个保持模型性能的增量量化方法，实验证明其在各种细调的语言模型中表现出与完整模型相当的性能，在低秩和低比特方法上也表现出明显优势，并且与其他基础语言模型兼容。

Jun, 2024

重新思考压缩：大型语言模型中潜在特征的简化建模

通过降阶建模和重参数化，本文提出了一种创新的大规模语言模型压缩方法，可在对内存和时间有严格限制的条件下，以逐层方式对十亿级模型进行压缩，与当前流行的结构化修剪方法相比，展现出卓越的效果。

Dec, 2023

动态内存压缩：为加速推断而改进语言模型

通过动态内存压缩 (DMC) 方法，我们可以提高基于 Transformers 的大型语言模型 (LLMs) 在自回归推理中的吞吐量，在保持原有性能的同时，使用不同的压缩率来适应不同的注意头和层级，并可以与其他技术相结合以提供更好的结果。

Mar, 2024

FineQuant: 低精度量化后全连接网络权重细粒度优化

为了解决大型语言模型在实际应用中的内存需求和推断成本的问题，我们提出了一种高效的仅权重量化方法，通过减少内存消耗和加速推断来实现。我们引入了一种简单而有效的启发式方法，仅利用预训练模型的模型权重来确保最小质量降低。该方法适用于混合专家模型和密集模型，并且无需额外的微调。通过分析量化大型语言模型的挑战和问题，并采用自适应的量化粒度进行解决，我们展示了我们提出的方法的有效性。此外，我们实现了高效的 GPU 矩阵乘法和解量化算法，支持 fp16 或 bf16 激活与 int8 或 int4 权重的乘法。我们在 OPT-175B 和内部混合专家模型等大规模开源模型上评估了我们的方法，展示了最小的准确性损失，并在相同数量的 GPU 上实现了高达 3.65 倍的吞吐量。

Aug, 2023