為什麼举得那麼重?通过削减层数减轻大型语言模型
本研究提出了一种针对 LLMs 的模型修剪技术,强调深度学习模型的可解释性,并通过互信息估计和调参来指导修剪过程。同时,还探讨了大规模模型和小规模模型的修剪差异,并展示了所提出模型相对于现有模型的优越性。
May, 2024
基于层序之差异,我们提出了 LLM-Streamline 方法,该方法通过对模型中不重要的层进行剪枝和轻量级模型的替代训练,以减轻剪枝所引起的性能下降,并在综合实验中展示了其优于现有模型剪枝方法的效果。
Mar, 2024
本研究提出了一种基于稀疏性诱导正则化的层选择方法,用于压缩大型预训练语言模型,以提高特定任务的计算效率,并在两个基准数据集上进行了实验验证其有效性。
Apr, 2018
大型语言模型的层之间存在高相似性,某些层对网络功能没有显著作用,因此提出了一种基于层重要性评分的剪枝方法,并且该方法在模型剪枝方面明显优于先前的最新方法,同时与量化等方法相互独立,能进一步减小参数和计算量。
Mar, 2024
该研究通过结构化剪枝方法,以低秩分解参数化权重矩阵并在训练过程中自适应地移除秩 1 分量,提高了大型语言模型的压缩效果和训练 / 推理速度,并展示了该方法可应用于 BERT 模型的下游 fine-tuning 分类。
Oct, 2019
通过选择性删除大型语言模型(LLMs)的高阶权重矩阵组成部分,可以显著提高其性能,称为 LASER(LAyer-SElective Rank reduction)方法。该方法在训练完成后对模型进行简单介入,不需要额外的参数或数据,并通过广泛的实验证明其在语言模型和数据集上的普遍适用性,同时提供了深入的分析来揭示 LASER 的有效性和运作机制。
Dec, 2023
本文详细分析了大型语言模型(LLMs),重点关注自然语言处理中一种重要的开源基础模型 LLaMA。通过设计选择题任务来评估 LLaMA 在高阶任务(如推理和计算)中的内在理解能力。我们水平对比不同大小的模型,垂直评估不同层次的模型,并揭示了基于设计的评估任务的几个关键而不寻常的发现:(1)在水平分析中,扩大模型规模几乎无法自动带来额外的知识或计算能力,但可以增强推理能力,特别是在数学问题解决方面,并有助于减少幻象,但只有超过一定规模阈值才能实现;(2)在垂直分析中,LLaMA 的较低层次缺乏实质性的算术和事实知识,展示了逻辑思维、多语言和认知能力,而顶层具有最大的计算能力和现实世界的知识。
Dec, 2023
通过跳过 Transformer LLMs 中后面的 attention 子层,可以有效地对大型语言模型进行压缩,提升性能并降低计算成本。在 Llama 2 7B 上观察到 21% 的生成速度提升,并出乎意料地改善了在多个常见基准测试中的性能。
Apr, 2024
提出了一种被称为 extit {Layer Collapse (LaCo)} 的简洁的逐层修剪方法,将后置模型层折叠到先前层,实现了模型大小的快速减小而同时保留了模型结构;全面的实验表明,该方法在修剪比例为 25-30% 时保持了超过 80% 的平均任务性能,显著优于现有最先进的结构修剪方法;还进行了后训练实验证实所提出的修剪方法有效继承了原始模型的参数,并从逐层相似性的角度讨论了提出该方法的动机,评估了修剪的大型语言模型在各种修剪比例下的性能。
Feb, 2024