基于低秩和稀疏逼近的大型语言模型的结构化压缩
近年来,大型语言模型(LLMs)在自然语言处理方面取得了重要进展,但其规模的增大增加了计算负担,需要在效率和性能之间取得平衡。为了解决 LLMs 中低秩压缩的挑战,我们对大模型的低秩特性进行了实证研究,并提出了一种适用于 LLMs 的低秩压缩方法,该方法通过汇总协方差矩阵的特征分布精确估计和贝叶斯优化策略来分配低秩维度。我们在 LLaMA-2 模型上的实验表明,我们的方法在相同的压缩比下比现有的强结构剪枝和低秩压缩技术表现更佳,能够保持模型的性能。
May, 2024
通过降阶建模和重参数化,本文提出了一种创新的大规模语言模型压缩方法,可在对内存和时间有严格限制的条件下,以逐层方式对十亿级模型进行压缩,与当前流行的结构化修剪方法相比,展现出卓越的效果。
Dec, 2023
基于大型语言模型的权重分解以及压缩方法,通过新的无需语料库参与、保持正交性的数据无关联 Rank-k 近似方法,成功压缩了 80% 的参数并保留了原始性能的 93.43%。同时,对经过 Rank-k 近似的权重矩阵进行了深入研究以验证假设。
Feb, 2024
该研究通过结构化剪枝方法,以低秩分解参数化权重矩阵并在训练过程中自适应地移除秩 1 分量,提高了大型语言模型的压缩效果和训练 / 推理速度,并展示了该方法可应用于 BERT 模型的下游 fine-tuning 分类。
Oct, 2019
本文提出了一种新的神经语言模型压缩方法,基于基于词汇划分的低秩矩阵逼近和词汇分布的幂律分布,相比传统压缩方法更优,在 OBW 数据集上实现了 6.6 倍的压缩率,采用量化可以实现 26 倍的压缩率,而且模型困惑度几乎没有降低。
Jun, 2018
通过在预训练中将权重参数化为低秩和稀疏矩阵之和,我们提出了一种称为 SLTrain 的方法,它通过矩阵分解学习低秩部分,然后使用随机固定支撑稀疏学习策略学习非零条目,这种策略显著提高了预训练性能。与低秩参数化预训练相比,SLTrain 几乎没有额外的参数和内存开销,但实现了与完全秩训练相当的性能。当与量化和逐层更新相结合时,SLTrain 可以将内存要求降低高达 73%。
Jun, 2024
通过合作的剪枝算法和大型语言模型自身,在数据收集和训练成本昂贵的挑战下,Compresso 通过在训练过程中学习最优的剪枝决策以及引入协同提示进一步增强了剪枝算法,成功将 LLaMA-7B 剪枝至 5.4B,并在阅读理解上超过 LLaMA-7B2.62%,在共同推理、阅读理解、MMLU 和 BBH 基准测试上分别获得了 2.21%、11.43%、7.04% 和 4.81% 的更高分数,明显优于一次性剪枝基线。
Oct, 2023
利用网络剪枝与矩阵分解相结合的方式,提出了一种有效的预训练语言模型的模型压缩方法,通过新的初始化技术和训练过程优化技巧,能够在保持性能的同时实现更加高效的模型压缩。
Jun, 2023