动态温度知识蒸馏
本研究提出了两种新颖的方法,知识调整(KA)和动态温度蒸馏(DTD),用于惩罚错误监督并改善学生模型,实验表明该方法在各种评测数据集上,以及与其他基于知识蒸馏的方法相结合时,都能获得鼓舞人心的表现。
Nov, 2019
本文提出了一种元知识蒸馏(MKD)方法,利用可学习的元温度参数进行元学习,通过适应学习目标的梯度自适应地调整元参数以解决知识蒸馏(KD)的退化问题,从而在不同数据集规模、不同网络和不同数据扩增类型上实现了与当下最优秀方法相当的性能表现。
Feb, 2022
该论文通过大量实验、分析和案例研究,发现并验证了系统性扩散是理解和解决标签平滑和知识蒸馏之间互相矛盾的发现的关键概念,从而推荐使用经过标签平滑的教师模型以及低温度传输来获得高性能的学生模型。
Jun, 2022
本文提出了一种名为CTKD的简单课程温度知识蒸馏技术,通过动态可学习的温度控制任务难度水平,实现了根据学生学习阶段逐步提高知识蒸馏难度的功能,并在CIFAR-100,ImageNet-2012和MS-COCO上进行了广泛的实验,证明了这种方法的有效性。
Nov, 2022
本文提出了一种基于教师模型稍加简化后的知识表示的学生友好型知识蒸馏方法(SKD),其包含软化处理和学习简化器,通过联合训练确保知识简化过程与学生模型的训练目标相关,提高了训练效率和准确性。实验结果表明,该方法在CIFAR-100和ImageNet数据集上取得了最优性能。
May, 2023
我们提出了一种利用关联距离和网络修剪的强化稳健知识蒸馏(R2KD)方法,能够有效结合数据增强以提高模型的性能。在各种数据集上进行了广泛的实验,包括CIFAR-100、FGVR、TinyImagenet和ImageNet,这些实验证明了我们的方法优于当前最先进的方法。
Nov, 2023
知识蒸馏通过使用共享的基于温度的软最大函数,从教师向学生传递软标签。然而,教师和学生之间的温度共享假设意味着在logit的范围和方差方面需要强制精确匹配。为了解决这个问题,我们提出将温度设定为logit的加权标准差,并在应用softmax和Kullback-Leibler散度之前进行Z分数预处理标准化。我们的预处理使学生能够关注来自教师的基本logit关系而不需要幅值匹配,并且可以提高现有基于logit的蒸馏方法的性能。我们还展示了一个典型案例,即教师和学生之间传统的温度共享设置不能可靠地产生真实的蒸馏评估; 尽管如此,我们的Z分数成功缓解了这个挑战。我们对CIFAR-100和ImageNet上的各种学生和教师模型进行了广泛评估,展示了其显著优越性。通过我们的预处理,纯知识蒸馏方法能够达到与最先进方法相当的性能,而其他蒸馏变体则可以在我们的预处理辅助下获得相当大的收益。
Mar, 2024
知识蒸馏(KD)通过允许学生网络逐步学习从教师网络传输的知识来提高其性能。我们提出了一种基于强化学习的方法RLKD,将温度调整视为顺序决策任务,并设计了一种新颖的状态表示来使代理能够做出更明智的动作(即实例温度调整)。我们的方法解决了由于KD设置导致的延迟奖励问题,并采用了高效的探索策略。我们的框架可以轻松插入到各种KD方法中,并在图像分类和目标检测任务上验证了其有效性。
Jun, 2024
本研究解决了知识蒸馏中Kullback-Leibler(KL)散度在优化方向上的局限性,提出了一种基于Kendall的$τ$系数的Ranking损失(RKKD),该损失更好地关注小值通道,有助于捕捉类间关系信息。实验结果表明,RKKD在多种知识蒸馏基线和教师-学生架构组合中显著提升了模型性能。
Sep, 2024