IJCAIMay, 2021

KDExplainer: 一种用于解释知识蒸馏的面向任务的注意力模型

TL;DR本文介绍一种名为 KDExplainer 的新颖任务定向的注意力模型,通过从预训练的自由形式的 DNN 中提炼出知识,我们发现知识蒸馏隐含地调节不同子任务之间的知识冲突,并在不需要过多成本的情况下,将虚拟注意模块(VAM)与各种 DNN 无缝集成以提高它们在知识蒸馏下的性能,结果显示使用 VAM 的学生模型在不同的基准测试中一致优于其无 VAM 对应物。