本研究在六个 BERT 架构和八个 GLUE 任务上探究了神经网络压缩方法中的量化、知识蒸馏和幅度修剪,发现量化和知识蒸馏提供了比修剪更大的好处,同时多种方法的组合具有协同减小模型大小的效果。
Aug, 2022
通过结合权重剪枝和模型蒸馏技术,我们提出了一种新的方法,用于训练稀疏的预训练变压器语言模型,这些模型可以快速高效地用于各种自然语言处理任务,并保持其稀疏性,同时我们进一步使用量化感知训练来将这些稀疏模型压缩为 8 位精度。我们证明了我们的稀疏预训练 BERT-Base、BERT-Large 和 DistilBERT 可以在多种自然语言任务中以极小的准确度损失传输其知识,是目前压缩 - to - 准确度比率最好的压缩 BERT-Base、BERT-Large 和 DistilBERT 方法。
Nov, 2021
该论文提出了一种量化感知张量压缩训练方法,通过将 Transformer 模型的嵌入层和线性层压缩成小的低秩张量核,进一步获得低精度的模型表示进行端到端和蒸馏 - based 训练,并应用层与层的蒸馏方法将预训练的 Transformer 模型转换为量化和张量压缩的学生模型以提高收敛速度,并在两个自然语言理解任务中表现出高达 63 倍的压缩比、几乎无损的精度损失和显著的推断和训练加速。
Jun, 2023
本文介绍了一种新的在 CPU 上创建和运行快速 Transformer 模型的流水线,利用硬件感知剪枝、知识蒸馏和量化等模型压缩技术,通过优化稀疏和量化操作库的运行时引擎来提高推理效率,创造了一个 Fast DistilBERT 模型,其通过问题回答 SQuADv1.1 基准测试表现良好,性能比现有的 Neural Magic's DeepSparse 运行时性能提高了高达 50%,比 ONNX 计算时性能提升了最多 4.1 倍。
Oct, 2022
本文提出了两种新的模型压缩方法:量化蒸馏和可微量化。两种方法在卷积和循环体系结构上的实验结果表明,在资源受限的环境中,量化浅层神经网络可以达到与全精度模型相似的准确性水平,同时提供数量级压缩和推断加速。
Feb, 2018
本文介绍了如何在 BERT 的 fine-tuning 阶段进行量化感知的训练,以将 BERT 压缩 4 倍并加速推理速度。
Oct, 2019
本文针对自然语言处理中使用的 BERT 和 RoBERTa 模型进行了压缩,使用结构化剪枝和专门化蒸馏相结合的方法,实现了在保持高精度的同时速度大幅提升。
本文介绍了一种基于量化的压缩生成式语言模型的方法,该方法使用了基于 token 的对比 distillation 技术学习可区分的单词嵌入,并提出了一个基于模块的动态缩放技术,适应不同模块的量化器,实验结果表明该方法在各种任务上性能优于基准方法,并且实现了 14.4x 和 13.4x 的压缩率,与全精度模型具有可比性。
Mar, 2022
本文针对预训练模型在资源受限情况下,因占用大量内存和高延迟而面临的挑战,提出联合蒸馏和量化的方法,成功实现了在生成任务的多个数据集上 16.5 倍的模型足迹压缩比,而性能相对于完整精度版本并没有明显下降,并在压缩比达到 27.7 倍的情况下提供了性能和效率的权衡分析,此方法在语言生成任务中是首次有效地利用蒸馏和量化成功压缩预训练的序列到序列模型。
通过一种一次性训练 - 搜索范式,本文研究了混合精度模型压缩的问题,并提出了一种动态冻结和信息失真缓解技术来优化位宽配置和性能下降。
Jan, 2024