LLMs 的手术特征空间分解:为什么,何时和如何?
通过降阶建模和重参数化,本文提出了一种创新的大规模语言模型压缩方法,可在对内存和时间有严格限制的条件下,以逐层方式对十亿级模型进行压缩,与当前流行的结构化修剪方法相比,展现出卓越的效果。
Dec, 2023
大规模语言模型的压缩方法如量化和参数修剪在减小模型的内存占用和流量上进行了积极探索,本研究通过对低秩分解方法,特别是 Tucker 分解,在近期语言模型上的研究,包括一个开源的语言模型 Llama 2,详细分析和评估了准确性和效率之间的平衡,结果表明在模型减小 9% 的情况下,最小的准确率下降为 4% 到 10%,此研究表明低秩分解可以成为大规模语言模型应用的有前途的方向。
May, 2024
近年来,大型语言模型(LLMs)在自然语言处理方面取得了重要进展,但其规模的增大增加了计算负担,需要在效率和性能之间取得平衡。为了解决 LLMs 中低秩压缩的挑战,我们对大模型的低秩特性进行了实证研究,并提出了一种适用于 LLMs 的低秩压缩方法,该方法通过汇总协方差矩阵的特征分布精确估计和贝叶斯优化策略来分配低秩维度。我们在 LLaMA-2 模型上的实验表明,我们的方法在相同的压缩比下比现有的强结构剪枝和低秩压缩技术表现更佳,能够保持模型的性能。
May, 2024
基于大型语言模型的权重分解以及压缩方法,通过新的无需语料库参与、保持正交性的数据无关联 Rank-k 近似方法,成功压缩了 80% 的参数并保留了原始性能的 93.43%。同时,对经过 Rank-k 近似的权重矩阵进行了深入研究以验证假设。
Feb, 2024
本研究提出了一种混合压缩模型 LoRAP,通过输入激活加权奇异值分解方法和基于低秩度差异的参数分配方案,增强了 Transformer 模型中 Multi-Head Self-Attention 子层的低秩特性,并提出了无梯度的结构化通道剪枝方法用于 Feed-Forward Network 子层,实验证明我们的提议在多重压缩比下优于之前的结构化压缩方法。
Apr, 2024
通过选择性删除大型语言模型(LLMs)的高阶权重矩阵组成部分,可以显著提高其性能,称为 LASER(LAyer-SElective Rank reduction)方法。该方法在训练完成后对模型进行简单介入,不需要额外的参数或数据,并通过广泛的实验证明其在语言模型和数据集上的普遍适用性,同时提供了深入的分析来揭示 LASER 的有效性和运作机制。
Dec, 2023
通过 Low Rank Decomposition (LoRD) 来压缩大型语言模型(LLMs)以及用于单语代码生成,能够大幅减少参数,提供速度提升,并且保持可微分性和可训练性,且与现有高效浮点矩阵内核兼容,具备潜力提高模型压缩效果。
Sep, 2023
本文提出了一种新颖的模型压缩技术 LoSparse,该技术通过低秩矩阵和稀疏矩阵的加和来近似一个权重矩阵,结合了低秩逼近和剪枝的优点,避免了它们的局限性,在自然语言理解、问答和生成等任务中,它显著优于现有的压缩方法。
Jun, 2023