ACLMar, 2022

通过量化实现生成预训练语言模型的压缩

TL;DR本文介绍了一种基于量化的压缩生成式语言模型的方法,该方法使用了基于 token 的对比 distillation 技术学习可区分的单词嵌入,并提出了一个基于模块的动态缩放技术,适应不同模块的量化器,实验结果表明该方法在各种任务上性能优于基准方法,并且实现了 14.4x 和 13.4x 的压缩率,与全精度模型具有可比性。