Dec, 2020

ALP-KD: 基于注意力的层映射知识蒸馏

TL;DR研究知识蒸馏在神经网络中的应用。提出了一种基于注意力机制的组合技术,通过将教师网络和学生网络的信息进行融合,并且考虑每层的重要性,在中间层进行蒸馏。实验表明,该技术能够优于其他现有的技术。