本文提出了一种名为SparseGPT的新型剪枝方法,能够高效、准确地应用于海量的GPT模型,实现一次性稀疏化至少50%,并在几乎不影响困惑度的情况下,将最大可用的开源模型OPT-175B和BLOOM-176B稀疏化至60%。
Jan, 2023
本篇文章旨在探讨离线压缩方法,并提出了一种基于自编码器的新框架,旨在压缩transformer语言模型。实验证明,启用模块间的协作并使用所提出的方法能够显著提高模型性能。
Feb, 2023
本论文演示了一种使用稀疏性和数据流的端到端训练流程,用于对一个大型语言模型(13亿GPT)进行高效训练,能够成功训练出与稠密模型相同质量的结果,并获得4.5倍于基线的端到端加速。
Apr, 2023
本论文提出了一种基于定常块大小的高效稀疏深度学习推断软件堆栈,可以将稀疏加速器应用于Transformer-based语言模型,我们的稀疏加速器在处理各种GEMM形状时,比现有的稀疏库快一个数量级,在Xeon上具有高效的性能。
Jun, 2023
我们研究了大型语言模型的精确稀疏微调问题,通过引入稀疏权重在专门的任务上微调预训练的语言模型。我们提出了一种称为SquareHead的基于L2范数的蒸馏方法,能够在高稀疏率下实现准确恢复,并展示了稀疏语言模型在CPU和GPU执行中的速度提升。
Oct, 2023
通过数据驱动的预训练模型压缩方法,我们可以在不牺牲性能的情况下,对大型语言模型进行剪枝,减小模型的规模。
Dec, 2023
本论文提出了一种名为BESA的新颖大型语言模型修剪技术,通过施加分块重构损失来减少整体修剪误差并以可微分方式分配层特定的稀疏性,从而确保修剪后的模型性能降低程度减少,实验结果表明BESA在仅五小时内能够高效地修剪带有70B参数的LLMs,达到了最先进的性能水平。
Feb, 2024
本研究解决了大型语言模型(LLMs)在部署时面临的参数数量和内存消耗问题,通过提出了一种称为自适应稀疏训练(AST)的新训练流程,克服了传统无训练剪枝方法的性能下降。AST通过知识蒸馏和自适应选择更优的剪枝策略,显著缩小了稠密模型与稀疏模型之间的性能差距,结合量化方法时可实现高达16倍的模型压缩,同时保持较小的性能损失。
Jul, 2024
本研究解决了大型语言模型(LLMs)在资源有限设备上的部署难题,提出了一种新颖的MoDeGPT模块化分解框架。该框架通过对Transformer模块进行结构化压缩,在无需恢复微调的情况下,有效提高压缩效率,实现98%的计算成本节省,同时在压缩率达到25-30%时仍保持90-95%的零-shot性能。
Aug, 2024
本研究解决了大型语言模型在资源有限设备上的部署困难,提出了一种新的模块化分解框架MoDeGPT,克服了传统压缩方法在准确性和参数开销上的缺陷。 MoDeGPT实现了高效的模型压缩,节省了98%的计算成本,同时在保持90-95%零-shot性能的情况下,将压缩率提升至25-30%。