Kendall的$τ$系数用于Logits蒸馏
使用半参数推断方法将知识蒸馏转换为目标学生模型、未知贝叶斯类概率和教师概率的plug-in估计值,引入交叉适应和损失校正两种方式来改善教师过度拟合和欠拟合对学生性能的影响,为标准蒸馏的预测误差提供了新的保证,并在表格式和图像数据上进行实证验证,观察到与知识蒸馏增强相关的一致改进。
Apr, 2021
研究知识蒸馏的目标函数KL散度损失在温度参数变大时侧重于logit匹配,而在温度参数趋近于0时侧重于标签匹配,提出使用均方误差作为损失函数,学生模型直接学习老师模型的logit向量。该方法优于KL散度损失,并可以改善标签噪声,通过实验证明了知识蒸馏的有效性。
May, 2021
本文提供一种新视角,通过近似经典KL散度标准的不同知识源激励一组知识蒸馏策略,从而使模型压缩和渐进学习在知识源方面进行系统比较。分析结果表明,logits通常是更有效的知识来源,并建议在模型设计方面具备足够的特征维度,从而为基于知识蒸馏的转移学习提供实用指南。
Mar, 2022
本文提出了一种新的知识蒸馏方法 PTLoss,通过扰动 KL-based distillation loss function,将原始 teacher 转换为更接近 ground truth 的 proxy teacher,从而显著提高了知识蒸馏的效果。
May, 2023
我们提出了一种利用关联距离和网络修剪的强化稳健知识蒸馏(R2KD)方法,能够有效结合数据增强以提高模型的性能。在各种数据集上进行了广泛的实验,包括CIFAR-100、FGVR、TinyImagenet和ImageNet,这些实验证明了我们的方法优于当前最先进的方法。
Nov, 2023
知识蒸馏通过使用共享的基于温度的软最大函数,从教师向学生传递软标签。然而,教师和学生之间的温度共享假设意味着在logit的范围和方差方面需要强制精确匹配。为了解决这个问题,我们提出将温度设定为logit的加权标准差,并在应用softmax和Kullback-Leibler散度之前进行Z分数预处理标准化。我们的预处理使学生能够关注来自教师的基本logit关系而不需要幅值匹配,并且可以提高现有基于logit的蒸馏方法的性能。我们还展示了一个典型案例,即教师和学生之间传统的温度共享设置不能可靠地产生真实的蒸馏评估; 尽管如此,我们的Z分数成功缓解了这个挑战。我们对CIFAR-100和ImageNet上的各种学生和教师模型进行了广泛评估,展示了其显著优越性。通过我们的预处理,纯知识蒸馏方法能够达到与最先进方法相当的性能,而其他蒸馏变体则可以在我们的预处理辅助下获得相当大的收益。
Mar, 2024
本研究解决了现有对数值蒸馏方法的局限性,提出了精细化对数值蒸馏(RLD)方法。通过动态调整教师模型的对数值,RLD有效消除了教师模型中的误导信息,同时保留重要的类别相关性,从而提升了蒸馏知识的价值和效率。实验结果表明,该方法在CIFAR-100和ImageNet数据集上优于现有技术。
Aug, 2024
本研究针对现有日志蒸馏方法的局限性,提出了一种新的精炼日志蒸馏(RLD)方法。该方法通过动态精炼教师模型的日志预测,消除误导性信息,保留重要的类别相关性,从而提高学生模型的学习效果。实验结果表明,在CIFAR-100和ImageNet数据集上,RLD相较于其他方法具有更优越的表现。
Aug, 2024
本文旨在解决知识蒸馏中学生模型性能提升的边际收益递减问题,提出了一种新的相关匹配知识蒸馏方法(CMKD),该方法不仅使学生模型获得教师模型的概率值,还学习类之间的相对排名。实验表明,CMKD可以在CIFAR-100和ImageNet上持续实现最先进的性能,并能很好地适应多种教师架构及其他知识蒸馏方法。
Oct, 2024