SparseGPT:一次修剪即可在大型语言模型上进行精准压缩
通过基于 Hessian 灵敏度感知的混合稀疏剪枝方法,我们提出了一种剪枝 LLMs 的方法,以至少达到 50% 的稀疏度,而不需要任何重新训练,该方法适应性地分配稀疏度,减少了剪枝引起的错误,同时保持了整体稀疏度水平,并且在稀疏度极高时表现出更显著的优势,此外,我们的方法与量化兼容,从而进一步压缩 LLMs。
Oct, 2023
SliceGPT 是一种新的后训练稀疏化方法,可以将模型的参数减少 25%,同时保持密集模型的 99%,99%和 90%的性能,并减少内存和计算需求。
Jan, 2024
通过结合权重剪枝和模型蒸馏技术,我们提出了一种新的方法,用于训练稀疏的预训练变压器语言模型,这些模型可以快速高效地用于各种自然语言处理任务,并保持其稀疏性,同时我们进一步使用量化感知训练来将这些稀疏模型压缩为 8 位精度。我们证明了我们的稀疏预训练 BERT-Base、BERT-Large 和 DistilBERT 可以在多种自然语言任务中以极小的准确度损失传输其知识,是目前压缩 - to - 准确度比率最好的压缩 BERT-Base、BERT-Large 和 DistilBERT 方法。
Nov, 2021
本文介绍了两种自回归 GPT 类模型,使用维基百科和 Colossal Clean Crawled Corpus 训练了 60 种语言、25 种语言系的搜索,展示了多种任务上的表现,包括分类、生成、序列标记和知识探测,在多语种任务上有着与 Facebook 最近发布的 XGLM 模型相媲美的表现。
Apr, 2022
本研究提出了 GPTQ 一种新的一次性量化方法,可以在 4 个 GPU 小时内将 GPT 模型的参数数量降至 1750 亿,每个权重只需使用 3 到 4 个比特位即可恢复几乎与未压缩基线相同的准确性,在单个 GPU 内执行 1750 亿参数模型,快于使用 FP16 格式的 GPU,且可提供 3.25 倍至 4.5 倍的推理加速度。
Oct, 2022
本论文演示了一种使用稀疏性和数据流的端到端训练流程,用于对一个大型语言模型(13 亿 GPT)进行高效训练,能够成功训练出与稠密模型相同质量的结果,并获得 4.5 倍于基线的端到端加速。
Apr, 2023
本文研究了使用渐进式非结构化剪枝模型进行领域迁移和任务迁移的有效性,结果表明,使用泛领域蒙版语言模型进行预训练的模型可以在不需要大量超参数调整或特殊方法的情况下,成功应用于新领域和任务,同时表明使用非结构化剪枝技术的推断速度与参数数量大幅减少
May, 2022
我们提出了 SPT 系统,通过引入稀疏性来高效地微调基于 Transformers 的模型,减少内存消耗,并且在各种模型配置上优于优化的基准模型,将峰值内存消耗降低了多达 50%,加速微调速度高达 2.2 倍。
Dec, 2023
我们呈现了 Open Pre-trained Transformers (OPT),一个解码器型的预训练 transformers 套件,范围从 125M 到 175B 个参数,这些我们希望与感兴趣的研究人员完全和负责任地分享。 我们展示了 OPT-175B 与 GPT-3 相媲美,同时仅需要 1/7 的碳足迹进行开发。
May, 2022
本文研究了基于 transformer 的预训练语言模型的硬件友好型块结构裁剪技术,通过加入一项称为 “留组拉索” 的优化算法来进行裁剪操作并达到高压缩率,同时实验表明该方法适用于迁移到资源受限的边缘设备上。
Sep, 2020