精炼日志蒸馏的知识蒸馏
使用半参数推断方法将知识蒸馏转换为目标学生模型、未知贝叶斯类概率和教师概率的plug-in估计值,引入交叉适应和损失校正两种方式来改善教师过度拟合和欠拟合对学生性能的影响,为标准蒸馏的预测误差提供了新的保证,并在表格式和图像数据上进行实证验证,观察到与知识蒸馏增强相关的一致改进。
Apr, 2021
研究知识蒸馏的目标函数KL散度损失在温度参数变大时侧重于logit匹配,而在温度参数趋近于0时侧重于标签匹配,提出使用均方误差作为损失函数,学生模型直接学习老师模型的logit向量。该方法优于KL散度损失,并可以改善标签噪声,通过实验证明了知识蒸馏的有效性。
May, 2021
使用简单的知识蒸馏技术可以显著缩小教师模型与学生模型之间的性能差距,通过使用预先训练的教师模型的判别分类器进行学生推断,并通过特征对齐训练学生编码器来实现与教师相同的性能。添加新的投影仪使学生编码器与教师分类器匹配,从而将这种技术应用于各种教师和学生架构下达到良好的压缩率与状态的最佳结果。
Mar, 2022
通过一系列的实验,我们发现知识蒸馏(distillation)在教师网络存在低置信度的点的时候,会使得学生网络的置信度更低,而之后引入知识蒸馏(loss)会恢复部分性能,同时我们提供了两种理论视角来理解这种现象,作为特征空间的正则化项和梯度去噪器。
Jan, 2023
知识蒸馏通过使用共享的基于温度的软最大函数,从教师向学生传递软标签。然而,教师和学生之间的温度共享假设意味着在logit的范围和方差方面需要强制精确匹配。为了解决这个问题,我们提出将温度设定为logit的加权标准差,并在应用softmax和Kullback-Leibler散度之前进行Z分数预处理标准化。我们的预处理使学生能够关注来自教师的基本logit关系而不需要幅值匹配,并且可以提高现有基于logit的蒸馏方法的性能。我们还展示了一个典型案例,即教师和学生之间传统的温度共享设置不能可靠地产生真实的蒸馏评估; 尽管如此,我们的Z分数成功缓解了这个挑战。我们对CIFAR-100和ImageNet上的各种学生和教师模型进行了广泛评估,展示了其显著优越性。通过我们的预处理,纯知识蒸馏方法能够达到与最先进方法相当的性能,而其他蒸馏变体则可以在我们的预处理辅助下获得相当大的收益。
Mar, 2024
本文主要介绍了一种新的逻辑知识蒸馏方法,即基于比例分离的蒸馏方法(SDD),通过将全局逻辑输出解耦成多个局部逻辑输出,并建立相应的蒸馏管道,帮助学生模型挖掘和继承细粒度和明确的逻辑知识,从而提高其识别能力。这种方法尤其在细粒度分类任务中展现了出色的效果。
Mar, 2024
该论文提出了一种解决知识蒸馏中错误监督的问题的方法,即通过标签修正纠正教师模型的错误预测,并引入数据选择技术以减少错误监督的影响,实验证明该方法的有效性,并表明该方法可以与其他蒸馏方法相结合,提高其性能。
Apr, 2024
本研究解决了现有对数值蒸馏方法的局限性,提出了精细化对数值蒸馏(RLD)方法。通过动态调整教师模型的对数值,RLD有效消除了教师模型中的误导信息,同时保留重要的类别相关性,从而提升了蒸馏知识的价值和效率。实验结果表明,该方法在CIFAR-100和ImageNet数据集上优于现有技术。
Aug, 2024
本研究解决了知识蒸馏中Kullback-Leibler(KL)散度在优化方向上的局限性,提出了一种基于Kendall的$τ$系数的Ranking损失(RKKD),该损失更好地关注小值通道,有助于捕捉类间关系信息。实验结果表明,RKKD在多种知识蒸馏基线和教师-学生架构组合中显著提升了模型性能。
Sep, 2024