Jul, 2022

知识浓缩蒸馏

TL;DR本文提出基于动态学习的知识凝聚蒸馏方法(KCD),通过期望最大化(EM)框架从教师的知识向学生转移紧凑的知识集,以有效增强学生模型的性能和蒸馏效率。