基于特征的大型语言模型通过贝叶斯优化的低秩压缩

ACLMay, 2024

基于特征的大型语言模型通过贝叶斯优化的低秩压缩

Feature-based Low-Rank Compression of Large Language Models via Bayesian Optimization

Yixin Ji, Yang Xiang, Juntao Li, Wei Chen, Zhongyi Liu...

TL;DR近年来，大型语言模型（LLMs）在自然语言处理方面取得了重要进展，但其规模的增大增加了计算负担，需要在效率和性能之间取得平衡。为了解决 LLMs 中低秩压缩的挑战，我们对大模型的低秩特性进行了实证研究，并提出了一种适用于 LLMs 的低秩压缩方法，该方法通过汇总协方差矩阵的特征分布精确估计和贝叶斯优化策略来分配低秩维度。我们在 LLaMA-2 模型上的实验表明，我们的方法在相同的压缩比下比现有的强结构剪枝和低秩压缩技术表现更佳，能够保持模型的性能。

Abstract

In recent years, large language models (LLMs) have driven advances in natural language processing. Still, their growing scale has increased the computational burden, necessitating a balance between efficiency and performance. Low-rank compression, a promising technique, reduces non-ess

large language models low-rank compression low-rank factorization low-rank dimensions allocation llama-2 models

发现论文，激发创造

重新思考压缩：大型语言模型中潜在特征的简化建模

通过降阶建模和重参数化，本文提出了一种创新的大规模语言模型压缩方法，可在对内存和时间有严格限制的条件下，以逐层方式对十亿级模型进行压缩，与当前流行的结构化修剪方法相比，展现出卓越的效果。

Dec, 2023

基于选取：预训练大型语言模型的低秩分解与目标应用

通过低秩分解方法，我们可以削减大型语言模型的冗余组件，压缩模型大小并保持与最先进压缩技术相当的准确性。

May, 2024

大型语言模型的零数据压缩和降噪

基于大型语言模型的权重分解以及压缩方法，通过新的无需语料库参与、保持正交性的数据无关联 Rank-k 近似方法，成功压缩了 80% 的参数并保留了原始性能的 93.43%。同时，对经过 Rank-k 近似的权重矩阵进行了深入研究以验证假设。

Feb, 2024

语言模型中低秩分解的精度 - 效率权衡特征化

大规模语言模型的压缩方法如量化和参数修剪在减小模型的内存占用和流量上进行了积极探索，本研究通过对低秩分解方法，特别是 Tucker 分解，在近期语言模型上的研究，包括一个开源的语言模型 Llama 2，详细分析和评估了准确性和效率之间的平衡，结果表明在模型减小 9% 的情况下，最小的准确率下降为 4% 到 10%，此研究表明低秩分解可以成为大规模语言模型应用的有前途的方向。

May, 2024

语言模型压缩的低秩剪枝和分解

利用网络剪枝与矩阵分解相结合的方式，提出了一种有效的预训练语言模型的模型压缩方法，通过新的初始化技术和训练过程优化技巧，能够在保持性能的同时实现更加高效的模型压缩。

Jun, 2023

基于低秩和稀疏逼近的大型语言模型的结构化压缩

本文提出了一种新颖的模型压缩技术 LoSparse，该技术通过低秩矩阵和稀疏矩阵的加和来近似一个权重矩阵，结合了低秩逼近和剪枝的优点，避免了它们的局限性，在自然语言理解、问答和生成等任务中，它显著优于现有的压缩方法。

Jun, 2023

通过随机低秩和低精度因式分解实现矩阵压缩

我们提出一种算法，利用矩阵的低秩结构来获得任意矩阵的低秩分解，通过向量量化和压缩技术实现了压缩比例和逼近精度之间的折衷。

Oct, 2023

基于低秩矩阵分解的文本分类在线嵌入压缩

本研究提出一种深度学习模型的压缩方法，利用低秩矩阵因式分解来压缩自然语言处理中的字词嵌入层，经过实验证明可以在 90% 的压缩比下保持精度不受影响，并且在句子分类任务上表现优于其他方法，同时还引入了一种新的学习率调度算法 CALR，其在句子分类基准测试中表现出优越性。

Nov, 2018

大型语言模型的结构裁剪

该研究通过结构化剪枝方法，以低秩分解参数化权重矩阵并在训练过程中自适应地移除秩 1 分量，提高了大型语言模型的压缩效果和训练 / 推理速度，并展示了该方法可应用于 BERT 模型的下游 fine-tuning 分类。

Oct, 2019

基于压缩的 LLM 排名

我们将理解过程视为信息压缩，并提出了一种基于无损数据压缩的大型语言模型（LLMs）排序方法。我们使用五个大型语言模型作为压缩的先验，并比较它们在困难的自然语言处理任务中的性能，包括句子完成、问题回答和共指消解。实验结果表明，压缩比率和模型性能呈正相关，因此可以作为评估大型语言模型的通用指标。

Jun, 2024