Jan, 2024

基于条件互信息的贝叶斯条件分布估计用于知识蒸馏

TL;DR通过引入条件互信息的概念以提高知识蒸馏中教师对未知贝叶斯条件概率分布的估计,本文提出了一种称为最大条件互信息方法的新估计器。通过对教师进行最大条件互信息估计,能够捕捉到图像聚类中更多的上下文信息,从而在各种先进的知识蒸馏框架中使用通过最大条件互信息估计而不是最大对数似然估计的教师,在学生的分类准确率上获得持续提高,增益高达3.32%。此外,研究还表明,这种提高在零样本和少样本情况下更为显著,当学生只有5%的训练样本可用(少样本)时,准确率提高了5.72%,在省略类别的情况下(零样本),准确率从0%增加到高达84%。