EMNLPNov, 2022
理解和改善知识蒸馏,针对大型 Transformer 编码器的量化感知训练
Understanding and Improving Knowledge Distillation for Quantization-Aware Training of Large Transformer Encoders
Minsoo Kim, Sihwa Lee, Sukjin Hong, Du-Seong Chang, Jungwook Choi
TL;DR本文提出了两种知识蒸馏方法,即注意力映射和注意力输出损失,并探索了两者的统一,以解决注意力重构的不足。实验结果表明,这两种知识蒸馏方法可以在使用小于 2 位的量化权重时,获得具有先进性的精度。