语言模型压缩的低秩剪枝和分解
近年来,大型语言模型(LLMs)在自然语言处理方面取得了重要进展,但其规模的增大增加了计算负担,需要在效率和性能之间取得平衡。为了解决 LLMs 中低秩压缩的挑战,我们对大模型的低秩特性进行了实证研究,并提出了一种适用于 LLMs 的低秩压缩方法,该方法通过汇总协方差矩阵的特征分布精确估计和贝叶斯优化策略来分配低秩维度。我们在 LLaMA-2 模型上的实验表明,我们的方法在相同的压缩比下比现有的强结构剪枝和低秩压缩技术表现更佳,能够保持模型的性能。
May, 2024
该研究通过结构化剪枝方法,以低秩分解参数化权重矩阵并在训练过程中自适应地移除秩 1 分量,提高了大型语言模型的压缩效果和训练 / 推理速度,并展示了该方法可应用于 BERT 模型的下游 fine-tuning 分类。
Oct, 2019
基于大型语言模型的权重分解以及压缩方法,通过新的无需语料库参与、保持正交性的数据无关联 Rank-k 近似方法,成功压缩了 80% 的参数并保留了原始性能的 93.43%。同时,对经过 Rank-k 近似的权重矩阵进行了深入研究以验证假设。
Feb, 2024
本研究提出基于一阶信息的 Static Model Pruning 方法,该方法不需要微调即可压缩 Pre-trained Language Models (PLMs),并在各种稀疏水平下展现出显著的性能优势和更高的参数效率。
Oct, 2022
通过降阶建模和重参数化,本文提出了一种创新的大规模语言模型压缩方法,可在对内存和时间有严格限制的条件下,以逐层方式对十亿级模型进行压缩,与当前流行的结构化修剪方法相比,展现出卓越的效果。
Dec, 2023
基于训练后的秩选择方法 Rank-Tuning,结合训练适应性,我们的方法能够实现高压缩率而无性能损失或性能损失较小,数值实验结果表明,我们可以将循环神经网络压缩至最多 14 倍,最多相对性能降低 1.4%。
Oct, 2023
本文提出一种称为混合矩阵分解 (Hybrid Matrix Factorization) 的压缩技术,将低秩矩阵分解技术(LMF)的矩阵秩翻倍,采用智能混合结构,提高了准确性,并且在保持密集矩阵的同时,速度优于剪枝或结构矩阵压缩技术。在 5 个 NLP 基准测试中评估了此技术对多个任务(翻译,意图检测,语言建模)的影响,并表明,在类似准确性值和压缩因子的情况下,HMF 比剪枝快 2.32 倍以上,比 LMF 的准确性高 16.77%。
Oct, 2020
本研究提出一种深度学习模型的压缩方法,利用低秩矩阵因式分解来压缩自然语言处理中的字词嵌入层,经过实验证明可以在 90% 的压缩比下保持精度不受影响,并且在句子分类任务上表现优于其他方法,同时还引入了一种新的学习率调度算法 CALR,其在句子分类基准测试中表现出优越性。
Nov, 2018