大型语言模型修剪
提出一种名为 LLM-Pruner 的方法,在保持多任务求解和语言生成能力的同时,通过结构修剪来压缩 LLM,使得压缩模型在零样本分类和生成上仍然表现出令人满意的能力,并且只需要 50K 数据,在 3 小时内就能通过调整技术(LoRA)有效地恢复性能。
May, 2023
该研究论文介绍了一种专为大型语言模型(LLMs)设计的机器遗忘方法。通过选择性修剪 LLMs 的方法,根据其相对于整体网络性能对目标能力的重要性,移除能够实现特定行为的神经元。研究发现在 LLMs 中,前馈神经元和注意神经元都是专门用于特定任务的,某些神经元比其他神经元更为重要。
Mar, 2024
基于新的剪枝方法与准确度预测模型,本研究提出一种能够自动选择最佳模型的压缩方法,实验证明其有效性和高效性。相较于基准模型,Wikitext2 和 PTB 上的困惑度分别降低了 9.48% 和 5.76%,而平均 MMLU 准确度提高了 6.28%。
Sep, 2023
利用上下文剪枝技术开发 Mini-GPT 来优化大型语言模型(LLMs),通过对传统 LLMs 的计算架构进行剪枝,保留核心功能同时大幅减小模型大小,此方法在多样且复杂的数据集上展现了高效性和有效性,作为构建领域特定 LLMs 的潜力方法,是未来发展的基石。
Dec, 2023
本研究提出了一种基于稀疏性诱导正则化的层选择方法,用于压缩大型预训练语言模型,以提高特定任务的计算效率,并在两个基准数据集上进行了实验验证其有效性。
Apr, 2018
通过对大型语言模型在抽象摘要生成中修剪算法的实证研究,发现修剪后的模型与完整模型相比更少出现幻觉,并提出其与源输入之间的更高词汇重叠可能是幻觉减少的原因。
Nov, 2023
该研究通过结构化剪枝方法,以低秩分解参数化权重矩阵并在训练过程中自适应地移除秩 1 分量,提高了大型语言模型的压缩效果和训练 / 推理速度,并展示了该方法可应用于 BERT 模型的下游 fine-tuning 分类。
Oct, 2019
提出了一种修剪方法,可在保持翻译质量的同时,移除多语言机器翻译中不相关的习惯用语,并检测出特定语种的专家,以便使用 Sparse Mixture-of-Experts 模型在单个 GPU 上运行。
Dec, 2022