EMNLPFeb, 2024

语言模型压缩的快速词汇传递

TL;DR我们提出了一种基于词汇转移的模型压缩方法,通过与其他压缩技术结合使用,可以显著减小模型大小和推理时间,同时在性能上有轻微的妥协。