LLMs 的手术特征空间分解：为什么，何时和如何？

ACLMay, 2024

LLMs 的手术特征空间分解：为什么，何时和如何？

Surgical Feature-Space Decomposition of LLMs: Why, When and How?

Arnav Chavan, Nahush Lele, Deepak Gupta

TL;DR低秩近似在大型语言模型中的应用及其对性能和模型偏差的影响的实证研究。

Abstract

low-rank approximations, of the weight and feature space can enhance the performance of deep learning models, whether in terms of improving generalization or reducing the latency of inference. However, there is n

low-rank approximations deep learning models large language models compression model bias

发现论文，激发创造

基于选取：预训练大型语言模型的低秩分解与目标应用

通过低秩分解方法，我们可以削减大型语言模型的冗余组件，压缩模型大小并保持与最先进压缩技术相当的准确性。

May, 2024

重新思考压缩：大型语言模型中潜在特征的简化建模

通过降阶建模和重参数化，本文提出了一种创新的大规模语言模型压缩方法，可在对内存和时间有严格限制的条件下，以逐层方式对十亿级模型进行压缩，与当前流行的结构化修剪方法相比，展现出卓越的效果。

Dec, 2023

语言模型中低秩分解的精度 - 效率权衡特征化

大规模语言模型的压缩方法如量化和参数修剪在减小模型的内存占用和流量上进行了积极探索，本研究通过对低秩分解方法，特别是 Tucker 分解，在近期语言模型上的研究，包括一个开源的语言模型 Llama 2，详细分析和评估了准确性和效率之间的平衡，结果表明在模型减小 9% 的情况下，最小的准确率下降为 4% 到 10%，此研究表明低秩分解可以成为大规模语言模型应用的有前途的方向。

May, 2024

基于特征的大型语言模型通过贝叶斯优化的低秩压缩

近年来，大型语言模型（LLMs）在自然语言处理方面取得了重要进展，但其规模的增大增加了计算负担，需要在效率和性能之间取得平衡。为了解决 LLMs 中低秩压缩的挑战，我们对大模型的低秩特性进行了实证研究，并提出了一种适用于 LLMs 的低秩压缩方法，该方法通过汇总协方差矩阵的特征分布精确估计和贝叶斯优化策略来分配低秩维度。我们在 LLaMA-2 模型上的实验表明，我们的方法在相同的压缩比下比现有的强结构剪枝和低秩压缩技术表现更佳，能够保持模型的性能。

May, 2024

大型语言模型的零数据压缩和降噪

基于大型语言模型的权重分解以及压缩方法，通过新的无需语料库参与、保持正交性的数据无关联 Rank-k 近似方法，成功压缩了 80% 的参数并保留了原始性能的 93.43%。同时，对经过 Rank-k 近似的权重矩阵进行了深入研究以验证假设。

Feb, 2024

LoRAP：大型语言模型的 Transformer 子层应采用差异化结构压缩

本研究提出了一种混合压缩模型 LoRAP，通过输入激活加权奇异值分解方法和基于低秩度差异的参数分配方案，增强了 Transformer 模型中 Multi-Head Self-Attention 子层的低秩特性，并提出了无梯度的结构化通道剪枝方法用于 Feed-Forward Network 子层，实验证明我们的提议在多重压缩比下优于之前的结构化压缩方法。

Apr, 2024

其中隐藏真理：使用层选择性排名降低改善语言模型的推理能力

通过选择性删除大型语言模型（LLMs）的高阶权重矩阵组成部分，可以显著提高其性能，称为 LASER（LAyer-SElective Rank reduction）方法。该方法在训练完成后对模型进行简单介入，不需要额外的参数或数据，并通过广泛的实验证明其在语言模型和数据集上的普遍适用性，同时提供了深入的分析来揭示 LASER 的有效性和运作机制。

Dec, 2023

LORD：单语代码 LLM 的低秩分解用于一次性压缩

通过 Low Rank Decomposition (LoRD) 来压缩大型语言模型（LLMs）以及用于单语代码生成，能够大幅减少参数，提供速度提升，并且保持可微分性和可训练性，且与现有高效浮点矩阵内核兼容，具备潜力提高模型压缩效果。

Sep, 2023

基于低秩和稀疏逼近的大型语言模型的结构化压缩

本文提出了一种新颖的模型压缩技术 LoSparse，该技术通过低秩矩阵和稀疏矩阵的加和来近似一个权重矩阵，结合了低秩逼近和剪枝的优点，避免了它们的局限性，在自然语言理解、问答和生成等任务中，它显著优于现有的压缩方法。

Jun, 2023

LLM 外科医生

通过数据驱动的预训练模型压缩方法，我们可以在不牺牲性能的情况下，对大型语言模型进行剪枝，减小模型的规模。

Dec, 2023