ACLMay, 2023

AD-KD: 基于属性的知识蒸馏用于语言模型压缩

TL;DR本文提出了一种基于 Integrated Gradients 的新颖的归因驱动知识蒸馏方法,它探索了教师模型背后的 token-level 解释,并将知识转移给学生模型,进一步探索了多视角归因蒸馏。实验证明我们的方法在 GLUE 基准测试中具有比其他现有方法更好的性能。