模块化 Transformer:将 Transformer 压缩为模块化层以进行灵活高效的推理
该论文提出了一种量化感知张量压缩训练方法,通过将 Transformer 模型的嵌入层和线性层压缩成小的低秩张量核,进一步获得低精度的模型表示进行端到端和蒸馏 - based 训练,并应用层与层的蒸馏方法将预训练的 Transformer 模型转换为量化和张量压缩的学生模型以提高收敛速度,并在两个自然语言理解任务中表现出高达 63 倍的压缩比、几乎无损的精度损失和显著的推断和训练加速。
Jun, 2023
本文提出了新的框架 NxMiFormer,同时使用 ADMM 和 STE-based QAT 进行稀疏化和量化,通过搜索算法找到最优的异构压缩配置,使预处理 Transformer 网络在 NLU 测试中达到 93% 的压缩率并保持 98% 以上的准确性。
Jun, 2022
通过结合权重剪枝和模型蒸馏技术,我们提出了一种新的方法,用于训练稀疏的预训练变压器语言模型,这些模型可以快速高效地用于各种自然语言处理任务,并保持其稀疏性,同时我们进一步使用量化感知训练来将这些稀疏模型压缩为 8 位精度。我们证明了我们的稀疏预训练 BERT-Base、BERT-Large 和 DistilBERT 可以在多种自然语言任务中以极小的准确度损失传输其知识,是目前压缩 - to - 准确度比率最好的压缩 BERT-Base、BERT-Large 和 DistilBERT 方法。
Nov, 2021
本文针对预训练模型在资源受限情况下,因占用大量内存和高延迟而面临的挑战,提出联合蒸馏和量化的方法,成功实现了在生成任务的多个数据集上 16.5 倍的模型足迹压缩比,而性能相对于完整精度版本并没有明显下降,并在压缩比达到 27.7 倍的情况下提供了性能和效率的权衡分析,此方法在语言生成任务中是首次有效地利用蒸馏和量化成功压缩预训练的序列到序列模型。
Mar, 2022
本篇研究提出了在两种不同类型的 ranker 模型上扩展句子转换蒸馏过程的两种方法,包括生成最优尺寸的词汇表和在蒸馏之前对教师的嵌入维数进行降维。结果表明,采用这些扩展技术的学生模型具有极大的压缩程度,而且在测试数据集上表现出高度的有效性和能用性。
Jun, 2022
本文提出了一种使用渐进模块替换的新型模型压缩方法来有效压缩 BERT。通过在训练中逐步增加替换的概率,使得我们的方法在原始和紧凑模型之间带来了更深入的交互,同时不需要引入任何额外的损失函数,在 GLUE 基准测试中,我们的方法优于现有的知识蒸馏方法,展示了一种新的模型压缩视角。
Feb, 2020
本文通过回顾相关学者先前的工作,系统地探讨了几个关键参数的影响。在此基础上,提出了一种名为 XTC 的简单而有效的压缩流程,它通过极端量化和层减少使模型尺寸降低了 50 倍,并在 GLUE 任务上实现了最新的最佳结果。
Jun, 2022
本文介绍了一种基于量化的压缩生成式语言模型的方法,该方法使用了基于 token 的对比 distillation 技术学习可区分的单词嵌入,并提出了一个基于模块的动态缩放技术,适应不同模块的量化器,实验结果表明该方法在各种任务上性能优于基准方法,并且实现了 14.4x 和 13.4x 的压缩率,与全精度模型具有可比性。
Mar, 2022