基于低秩和稀疏逼近的大型语言模型的结构化压缩

Jun, 2023

基于低秩和稀疏逼近的大型语言模型的结构化压缩

LoSparse: Structured Compression of Large Language Models based on Low-Rank and Sparse Approximation

Yixiao Li, Yifan Yu, Qingru Zhang, Chen Liang, Pengcheng He...

TL;DR本文提出了一种新颖的模型压缩技术 LoSparse，该技术通过低秩矩阵和稀疏矩阵的加和来近似一个权重矩阵，结合了低秩逼近和剪枝的优点，避免了它们的局限性，在自然语言理解、问答和生成等任务中，它显著优于现有的压缩方法。

Abstract

transformer models have achieved remarkable results in various natural language tasks, but they are often prohibitively large, requiring massive memories and computational resources. To reduce the size and complexity of these models, we propose →

transformer models losparse model compression low-rank approximation pruning

发现论文，激发创造

基于特征的大型语言模型通过贝叶斯优化的低秩压缩

近年来，大型语言模型（LLMs）在自然语言处理方面取得了重要进展，但其规模的增大增加了计算负担，需要在效率和性能之间取得平衡。为了解决 LLMs 中低秩压缩的挑战，我们对大模型的低秩特性进行了实证研究，并提出了一种适用于 LLMs 的低秩压缩方法，该方法通过汇总协方差矩阵的特征分布精确估计和贝叶斯优化策略来分配低秩维度。我们在 LLaMA-2 模型上的实验表明，我们的方法在相同的压缩比下比现有的强结构剪枝和低秩压缩技术表现更佳，能够保持模型的性能。

May, 2024

重新思考压缩：大型语言模型中潜在特征的简化建模

通过降阶建模和重参数化，本文提出了一种创新的大规模语言模型压缩方法，可在对内存和时间有严格限制的条件下，以逐层方式对十亿级模型进行压缩，与当前流行的结构化修剪方法相比，展现出卓越的效果。

Dec, 2023

大型语言模型的零数据压缩和降噪

基于大型语言模型的权重分解以及压缩方法，通过新的无需语料库参与、保持正交性的数据无关联 Rank-k 近似方法，成功压缩了 80% 的参数并保留了原始性能的 93.43%。同时，对经过 Rank-k 近似的权重矩阵进行了深入研究以验证假设。

Feb, 2024

基于选取：预训练大型语言模型的低秩分解与目标应用

通过低秩分解方法，我们可以削减大型语言模型的冗余组件，压缩模型大小并保持与最先进压缩技术相当的准确性。

May, 2024

LLM 外科医生

通过数据驱动的预训练模型压缩方法，我们可以在不牺牲性能的情况下，对大型语言模型进行剪枝，减小模型的规模。

Dec, 2023

大型语言模型的结构裁剪

该研究通过结构化剪枝方法，以低秩分解参数化权重矩阵并在训练过程中自适应地移除秩 1 分量，提高了大型语言模型的压缩效果和训练 / 推理速度，并展示了该方法可应用于 BERT 模型的下游 fine-tuning 分类。

Oct, 2019

GroupReduce: 块状低秩逼近神经语言模型压缩

本文提出了一种新的神经语言模型压缩方法，基于基于词汇划分的低秩矩阵逼近和词汇分布的幂律分布，相比传统压缩方法更优，在 OBW 数据集上实现了 6.6 倍的压缩率，采用量化可以实现 26 倍的压缩率，而且模型困惑度几乎没有降低。

Jun, 2018

SLTrain：一种用于参数和内存高效预训练的稀疏低秩方法

通过在预训练中将权重参数化为低秩和稀疏矩阵之和，我们提出了一种称为 SLTrain 的方法，它通过矩阵分解学习低秩部分，然后使用随机固定支撑稀疏学习策略学习非零条目，这种策略显著提高了预训练性能。与低秩参数化预训练相比，SLTrain 几乎没有额外的参数和内存开销，但实现了与完全秩训练相当的性能。当与量化和逐层更新相结合时，SLTrain 可以将内存要求降低高达 73%。

Jun, 2024

Compresso: 结构化剪枝与合作促使学习紧凑的大型语言模型

通过合作的剪枝算法和大型语言模型自身，在数据收集和训练成本昂贵的挑战下，Compresso 通过在训练过程中学习最优的剪枝决策以及引入协同提示进一步增强了剪枝算法，成功将 LLaMA-7B 剪枝至 5.4B，并在阅读理解上超过 LLaMA-7B2.62%，在共同推理、阅读理解、MMLU 和 BBH 基准测试上分别获得了 2.21%、11.43%、7.04% 和 4.81% 的更高分数，明显优于一次性剪枝基线。

Oct, 2023

语言模型压缩的低秩剪枝和分解

利用网络剪枝与矩阵分解相结合的方式，提出了一种有效的预训练语言模型的模型压缩方法，通过新的初始化技术和训练过程优化技巧，能够在保持性能的同时实现更加高效的模型压缩。

Jun, 2023