LLM 外科医生
该研究通过结构化剪枝方法,以低秩分解参数化权重矩阵并在训练过程中自适应地移除秩 1 分量,提高了大型语言模型的压缩效果和训练 / 推理速度,并展示了该方法可应用于 BERT 模型的下游 fine-tuning 分类。
Oct, 2019
本文研究了基于 transformer 的预训练语言模型的硬件友好型块结构裁剪技术,通过加入一项称为 “留组拉索” 的优化算法来进行裁剪操作并达到高压缩率,同时实验表明该方法适用于迁移到资源受限的边缘设备上。
Sep, 2020
提出一种名为 LLM-Pruner 的方法,在保持多任务求解和语言生成能力的同时,通过结构修剪来压缩 LLM,使得压缩模型在零样本分类和生成上仍然表现出令人满意的能力,并且只需要 50K 数据,在 3 小时内就能通过调整技术(LoRA)有效地恢复性能。
May, 2023
本文研究了 Transformer-based 语言模型的压缩方法,提出了基于 oBERT 的权重剪枝方法并将其应用在 BERT 模型的训练和 fine-tuning 中,同时利用多种压缩方法得到高压缩模型并在边缘设备上进行了部署。
Mar, 2022
通过对 Transformer 架构进行参数剪枝的优化策略,通过广泛实验和超参数选择,研究发现可以在不牺牲性能的情况下显著减少模型大小,并改善通用性能,从而在深度学习应用方面实现更可扩展和环境友好的方式。
Oct, 2023
利用结构修剪技术从预训练的大型语言模型生成更小但功能强大的语言模型。这项工作通过展示 Sheared-LLaMA 系列,在仅使用相当于从头训练这些模型所需计算量的 3%的情况下,将 LLaMA2-7B 模型修剪为 1.3B 和 2.7B 参数,优于等规模的开源模型,并提供了使用结构修剪来构建更小型语言模型更具成本效益的佐证。
Oct, 2023
提出了一种被称为 extit {Layer Collapse (LaCo)} 的简洁的逐层修剪方法,将后置模型层折叠到先前层,实现了模型大小的快速减小而同时保留了模型结构;全面的实验表明,该方法在修剪比例为 25-30% 时保持了超过 80% 的平均任务性能,显著优于现有最先进的结构修剪方法;还进行了后训练实验证实所提出的修剪方法有效继承了原始模型的参数,并从逐层相似性的角度讨论了提出该方法的动机,评估了修剪的大型语言模型在各种修剪比例下的性能。
Feb, 2024
通过结合权重剪枝和模型蒸馏技术,我们提出了一种新的方法,用于训练稀疏的预训练变压器语言模型,这些模型可以快速高效地用于各种自然语言处理任务,并保持其稀疏性,同时我们进一步使用量化感知训练来将这些稀疏模型压缩为 8 位精度。我们证明了我们的稀疏预训练 BERT-Base、BERT-Large 和 DistilBERT 可以在多种自然语言任务中以极小的准确度损失传输其知识,是目前压缩 - to - 准确度比率最好的压缩 BERT-Base、BERT-Large 和 DistilBERT 方法。
Nov, 2021
提出了一种用于 PLM 的协作优化算法,该算法集成了静态模型压缩和动态推理加速,通过在宽度上将 PLM 变得苗条同时保持深度,同时补充逐层早期退出以动态加速推理。
Oct, 2022
本文提出了一种新颖的模型压缩技术 LoSparse,该技术通过低秩矩阵和稀疏矩阵的加和来近似一个权重矩阵,结合了低秩逼近和剪枝的优点,避免了它们的局限性,在自然语言理解、问答和生成等任务中,它显著优于现有的压缩方法。
Jun, 2023