May, 2023

AD-KD: 基于属性的知识蒸馏用于语言模型压缩

TL;DR本文提出了一种基于Integrated Gradients的新颖的归因驱动知识蒸馏方法,它探索了教师模型背后的token-level解释,并将知识转移给学生模型,进一步探索了多视角归因蒸馏。实验证明我们的方法在GLUE基准测试中具有比其他现有方法更好的性能。