EMNLPNov, 2022

理解和改善知识蒸馏,针对大型 Transformer 编码器的量化感知训练

TL;DR本文提出了两种知识蒸馏方法,即注意力映射和注意力输出损失,并探索了两者的统一,以解决注意力重构的不足。实验结果表明,这两种知识蒸馏方法可以在使用小于 2 位的量化权重时,获得具有先进性的精度。