Jul, 2023

自我蒸馏量化:在基于 Transformer 的语言模型中实现高压缩率

TL;DR通过后训练量化和量化意识训练来研究 Transformer 语言模型的概括化效果。提出了一种称为自身蒸馏量化(SDQ)的方法,该方法最小化积累的量化误差,并优于基线。将 SDQ 应用于多语言模型 XLM-R-Base 和 InfoXLM-Base,并证明两个模型可以从 32 位浮点权重减少到 8 位整数权重,同时在 XGLUE 基准上保持高水平的性能。我们的结果还突出了量化多语言模型的挑战,这些模型必须概括他们没有针对性微调的语言。