NormKD:标准化的知识蒸馏
本文提出了一种元知识蒸馏(MKD)方法,利用可学习的元温度参数进行元学习,通过适应学习目标的梯度自适应地调整元参数以解决知识蒸馏(KD)的退化问题,从而在不同数据集规模、不同网络和不同数据扩增类型上实现了与当下最优秀方法相当的性能表现。
Feb, 2022
研究了一种名为Knowledge Distillation as Efficient Pre-training (KDEP)的替代预训练策略,旨在通过非参数特征维度对齐的基于特征的KD方法将先前已经训练好的模型的学习特征表示有效地转移到新的学生模型,实现在不需要大规模数据和较少预训练时间的情况下在三个下游任务和九个下游数据集中实现与有监督预训练的同等效果。
Mar, 2022
通过将传统的知识蒸馏 (KD) 损失重构为 TCKD 和 NCKD 两部分,本文证明了 logit distillation 方法的潜在价值,并提出了解耦知识蒸馏 (DKD) 方法以更高效地发挥 TCKD 和 NCKD 的作用,从而在图像分类和目标检测任务的 CIFAR-100、ImageNet 和 MS-COCO 数据集上取得了可比甚至更好的结果和更好的训练效率。
Mar, 2022
本文发现了先前知识蒸馏方法中存在的小数据陷阱并证明了对于大规模数据集,纯粹的知识蒸馏框架可以用更强的数据增强技术和使用更大的数据集来缩小与其他知识蒸馏方法之间的差距,从而使其在大规模情况下效果惊人。
May, 2023
应用于实际工业应用中需要大量计算成本的最新计算机视觉技术,通过调整非目标类别预测,提出了基于能量评分的知识蒸馏方法(Energy KD),在各种数据集上取得了更好的性能表现,特别是在包含许多挑战样本的CIFAR-100-LT和ImageNet数据集上。此外,提出了基于高能量的数据增强(HE-DA)以进一步提高性能。
Nov, 2023
知识蒸馏通过使用共享的基于温度的软最大函数,从教师向学生传递软标签。然而,教师和学生之间的温度共享假设意味着在logit的范围和方差方面需要强制精确匹配。为了解决这个问题,我们提出将温度设定为logit的加权标准差,并在应用softmax和Kullback-Leibler散度之前进行Z分数预处理标准化。我们的预处理使学生能够关注来自教师的基本logit关系而不需要幅值匹配,并且可以提高现有基于logit的蒸馏方法的性能。我们还展示了一个典型案例,即教师和学生之间传统的温度共享设置不能可靠地产生真实的蒸馏评估; 尽管如此,我们的Z分数成功缓解了这个挑战。我们对CIFAR-100和ImageNet上的各种学生和教师模型进行了广泛评估,展示了其显著优越性。通过我们的预处理,纯知识蒸馏方法能够达到与最先进方法相当的性能,而其他蒸馏变体则可以在我们的预处理辅助下获得相当大的收益。
Mar, 2024
本文主要介绍了一种新的逻辑知识蒸馏方法,即基于比例分离的蒸馏方法(SDD),通过将全局逻辑输出解耦成多个局部逻辑输出,并建立相应的蒸馏管道,帮助学生模型挖掘和继承细粒度和明确的逻辑知识,从而提高其识别能力。这种方法尤其在细粒度分类任务中展现了出色的效果。
Mar, 2024
提出了一种新方法来提高知识蒸馏效率,同时不需要资源密集的教师模型。通过使用紧凑的自动编码器提取特征并计算不同类别之间的相似度得分,然后对这些相似度得分应用softmax函数以获得软概率向量,这个向量在学生模型的训练中作为有价值的指导。在各种数据集上进行的广泛实验表明,与依赖大型教师模型的传统知识蒸馏方法相比,我们的方法在资源效率方面具有更高的优势,并在模型准确性方面实现了相似甚至更高的性能。
Apr, 2024
本研究针对知识蒸馏中教师网络与学生网络之间的差距,提出了一种新的块级对数蒸馏框架。该框架通过逐步替换教师的网络块,实现了对特征的隐式对齐,显示出对数与特征结合的巨大潜力,并使得最终结果与现有状态最先进的蒸馏方法相比更具竞争力。
Nov, 2024