基于转换的教师匹配的知识蒸馏
知识蒸馏通过使用共享的基于温度的软最大函数,从教师向学生传递软标签。然而,教师和学生之间的温度共享假设意味着在 logit 的范围和方差方面需要强制精确匹配。为了解决这个问题,我们提出将温度设定为 logit 的加权标准差,并在应用 softmax 和 Kullback-Leibler 散度之前进行 Z 分数预处理标准化。我们的预处理使学生能够关注来自教师的基本 logit 关系而不需要幅值匹配,并且可以提高现有基于 logit 的蒸馏方法的性能。我们还展示了一个典型案例,即教师和学生之间传统的温度共享设置不能可靠地产生真实的蒸馏评估;尽管如此,我们的 Z 分数成功缓解了这个挑战。我们对 CIFAR-100 和 ImageNet 上的各种学生和教师模型进行了广泛评估,展示了其显著优越性。通过我们的预处理,纯知识蒸馏方法能够达到与最先进方法相当的性能,而其他蒸馏变体则可以在我们的预处理辅助下获得相当大的收益。
Mar, 2024
本文提出了一种元知识蒸馏(MKD)方法,利用可学习的元温度参数进行元学习,通过适应学习目标的梯度自适应地调整元参数以解决知识蒸馏(KD)的退化问题,从而在不同数据集规模、不同网络和不同数据扩增类型上实现了与当下最优秀方法相当的性能表现。
Feb, 2022
通过使用批量预测的余弦相似度度量以及基于余弦相似度的温度调节方法,我们提出了一种新颖有效的知识蒸馏方法,可以使学生模型达到与教师模型相似甚至更好的性能,该方法将为模型压缩的未来研究提供宝贵的见解。
Nov, 2023
介绍了一种动态温度知识蒸馏(DTKD)方法,通过量化模型输出分布的平滑度来为教师和学生模型分别确定样本特定的温度,从而在知识传递过程中提高性能。在 CIFAR-100 和 ImageNet-2012 上的实验证明,DTKD 在目标类和非目标类知识蒸馏方案中表现出较高的鲁棒性。
Apr, 2024
本文提出了一种基于标准化的知识蒸馏方法(NormKD),通过自定义每个样本的温度来提高知识蒸馏的效果,并在图像分类的任务中表现出明显的优越性。此外,NormKD 可轻松应用于其他基于 logit 的方法,并达到接近或甚至超越基于特征的方法的性能。
Aug, 2023
研究知识蒸馏的目标函数 KL 散度损失在温度参数变大时侧重于 logit 匹配,而在温度参数趋近于 0 时侧重于标签匹配,提出使用均方误差作为损失函数,学生模型直接学习老师模型的 logit 向量。该方法优于 KL 散度损失,并可以改善标签噪声,通过实验证明了知识蒸馏的有效性。
May, 2021
本文提出了一种名为 CTKD 的简单课程温度知识蒸馏技术,通过动态可学习的温度控制任务难度水平,实现了根据学生学习阶段逐步提高知识蒸馏难度的功能,并在 CIFAR-100,ImageNet-2012 和 MS-COCO 上进行了广泛的实验,证明了这种方法的有效性。
Nov, 2022
我们提出了基于多教师多层知识蒸馏学习框架的自适应学习方法,该方法通过将每个教师与潜在表示相关联,自适应地学习实例级教师重要性权重,从而获取集成的高级知识,并通过多组提示策略从多个教师处汇集中间级知识。实验表明,该方法确保学生比强竞争者取得了更好的性能。
Mar, 2021
知识蒸馏技术可以将性能出众且庞大的神经网络的 “深层知识” 传递给性能较弱但轻量级的网络。该研究深入探讨了具有不同容量的教师所提供的深层知识,从输出对数和软化概率的角度进行分析,并通过丰富的实验研究验证了观察结果。研究发现不同容量的教师在对相对类别关联性的认知上基本保持一致,并提出了扩大大容量教师的非真实类别概率差异以解决 “容量不匹配” 问题的简单而有效方法。通过与解决容量不匹配问题的流行知识蒸馏方法进行比较,验证了这些方法的成功性。
May, 2024
知识蒸馏 (KD) 通过允许学生网络逐步学习从教师网络传输的知识来提高其性能。我们提出了一种基于强化学习的方法 RLKD,将温度调整视为顺序决策任务,并设计了一种新颖的状态表示来使代理能够做出更明智的动作 (即实例温度调整)。我们的方法解决了由于 KD 设置导致的延迟奖励问题,并采用了高效的探索策略。我们的框架可以轻松插入到各种 KD 方法中,并在图像分类和目标检测任务上验证了其有效性。
Jun, 2024