SVD-LLM:大型语言模型压缩的截断感知奇异值分解
这篇论文研究了一种新的后期无训练压缩范式,用于在各种计算环境中更广泛地采用压缩大型语言模型(LLMs)。我们探讨了 LLM 压缩的挑战,特别是它们对广泛的训练数据和计算资源的依赖。我们提出了一种称为激活感知奇异值分解(ASVD)的无训练方法来解决这些限制。ASVD 通过根据激活分布调整权重矩阵来有效管理激活异常值,提高分解的准确性和效率。我们的方法还解决了不同 LLM 层对分解的不同敏感性问题,通过迭代校准过程实现最佳的层特定分解。实验证明,ASVD 能够在不损失推理能力的情况下压缩网络 10%-20%。此外,它可以与其他 LLM 压缩范式无缝集成,展示了它的灵活兼容性。代码和压缩模型可以在此网址找到。
Dec, 2023
我们提出了一种加权奇异值分解压缩 Transformer 的语言模型的方法,该方法考虑了神经网络参数的不平等重要性,并解决了没有封闭形式解决方案的非凸优化问题。实验结果表明,相较于传统的 SVD 方法,在压缩 Transformer 的语言模型时,我们的方法可以获得更好的效果。
Nov, 2022
提出了一种基于 Fisher 信息的 SVD 压缩方法(FWSVD),它可以通过加权计算参数的重要性来降低模型压缩中优化目标与模型任务的目标不匹配的问题,该方法适用于任务特定模型并且可以取得比其他紧凑模型策略更好的性能和更高的压缩率。
Jun, 2022
我们提出了一种简单而新颖的参数化线性映射形式,称为 Ternary SVD(TSVD)。与传统的奇异值分解(SVD)不同,TSVD 限制了 SVD 中的 U 和 V 矩阵为三值矩阵形式(±1,0)。在计算 U(・)和 V(・)时,TSVD 仅需要加法指令,而无需昂贵的乘法指令。我们提供了直接转换算法和训练转换算法的过渡算法(如后训练量化和量化感知训练)。此外,我们理论上分析了直接转换算法的收敛性。在实验证明,TSVD 可以在各种类型的网络和任务中实现最先进的网络压缩性能,包括当前的基线模型,如 ConvNext、Swim、BERT 和大型语言模型 OPT。
Aug, 2023
通过降阶建模和重参数化,本文提出了一种创新的大规模语言模型压缩方法,可在对内存和时间有严格限制的条件下,以逐层方式对十亿级模型进行压缩,与当前流行的结构化修剪方法相比,展现出卓越的效果。
Dec, 2023
本文提出一种基于随机投影与有限阶多项式拓展计算奇异值分解嵌入的压缩光谱嵌入算法,其降维效果与计算复杂度不受特征向量数量影响。此算法对聚类和分类等下游推断任务的对比相似度度量具有较好效果。
Sep, 2015
基于 Transfomer 的预训练大型语言模型(LLM)展示了令人惊叹的上下文学习能力(ICL)。在本文中,我们展示了基于 SVD 的权重剪枝可以增强 ICL 性能的有趣现象,并且在深层剪枝权重通常导致浅层性能的更稳定的改善。然而,这些发现的基本机制仍然是一个悬而未决的问题。为了揭示这些发现,我们通过展示 ICL 的隐式梯度下降(GD)轨迹,并通过完全的隐式 GD 轨迹给出基于互信息的 ICL 泛化界限进行了深入的理论分析。这有助于我们合理地解释令人惊讶的实验结果。此外,基于所有的实验和理论观察,我们直观地提出了一个用于增强 ICL 推断的简单、压缩模型和无导数的算法。在基准数据集和开源 LLM 上的实验证明了该方法的有效性。
Jun, 2024
该论文提供了针对大型语言模型的模型压缩技术的综述调查,涵盖量化、修剪、知识蒸馏等各种方法,并探讨了压缩后的大型语言模型的基准策略和评估指标,旨在促进效率和实际应用的提升,为领域的未来发展奠定了基础。
Aug, 2023
综合奇异值分解(Singular Value Decomposition)与低秩适应(Low-Rank Adaptation)参数更新策略,提高图像生成模型的微调效率和输出质量,改善模型的泛化能力和创造性灵活性,同时在受限资源条件下保持良好性能。
May, 2024
本研究提出了一种名为 SVD training 的神经网络压缩方法,通过正交性正则化和奇异值剪枝等技术,可以在训练过程中显式地实现降低矩阵秩的目标,从而更有效地减少 DNN 算法在低性能设备上的计算负担。
Apr, 2020