优化大型语言模型的压缩方法
本研究提出了一种基于稀疏性诱导正则化的层选择方法,用于压缩大型预训练语言模型,以提高特定任务的计算效率,并在两个基准数据集上进行了实验验证其有效性。
Apr, 2018
提出了一种被称为 extit {Layer Collapse (LaCo)} 的简洁的逐层修剪方法,将后置模型层折叠到先前层,实现了模型大小的快速减小而同时保留了模型结构;全面的实验表明,该方法在修剪比例为 25-30% 时保持了超过 80% 的平均任务性能,显著优于现有最先进的结构修剪方法;还进行了后训练实验证实所提出的修剪方法有效继承了原始模型的参数,并从逐层相似性的角度讨论了提出该方法的动机,评估了修剪的大型语言模型在各种修剪比例下的性能。
Feb, 2024
提出一种名为 LLM-Pruner 的方法,在保持多任务求解和语言生成能力的同时,通过结构修剪来压缩 LLM,使得压缩模型在零样本分类和生成上仍然表现出令人满意的能力,并且只需要 50K 数据,在 3 小时内就能通过调整技术(LoRA)有效地恢复性能。
May, 2023
我们提出了一种名为 BlockPruner 的新型无需训练的结构化修剪方法,通过定位多头注意力和多层感知机块中的冗余实现更精细的修剪,实验证明,与现有方法相比,BlockPruner 在各种下游任务中实现了更精确和有效的修剪。
Jun, 2024
该研究通过结构化剪枝方法,以低秩分解参数化权重矩阵并在训练过程中自适应地移除秩 1 分量,提高了大型语言模型的压缩效果和训练 / 推理速度,并展示了该方法可应用于 BERT 模型的下游 fine-tuning 分类。
Oct, 2019
通过跳过 Transformer LLMs 中后面的 attention 子层,可以有效地对大型语言模型进行压缩,提升性能并降低计算成本。在 Llama 2 7B 上观察到 21% 的生成速度提升,并出乎意料地改善了在多个常见基准测试中的性能。
Apr, 2024
基于优化的结构剪枝方法通过在概率空间中学习剪枝掩码,通过前向传递和策略梯度估计器进行高效优化,实现对大型语言模型的剪枝,并在复杂性和效果方面超越现有方法。
Jun, 2024
本研究提出了一种针对 LLMs 的模型修剪技术,强调深度学习模型的可解释性,并通过互信息估计和调参来指导修剪过程。同时,还探讨了大规模模型和小规模模型的修剪差异,并展示了所提出模型相对于现有模型的优越性。
May, 2024
利用 SLEB 方法,通过消除多余的 transformer 块来优化大型语言模型的效率,加速模型的推断过程,同时不损害模型的语言能力。
Feb, 2024