研究了一种名为Knowledge Distillation as Efficient Pre-training (KDEP)的替代预训练策略,旨在通过非参数特征维度对齐的基于特征的KD方法将先前已经训练好的模型的学习特征表示有效地转移到新的学生模型,实现在不需要大规模数据和较少预训练时间的情况下在三个下游任务和九个下游数据集中实现与有监督预训练的同等效果。
Mar, 2022
本文提供一种新视角,通过近似经典KL散度标准的不同知识源激励一组知识蒸馏策略,从而使模型压缩和渐进学习在知识源方面进行系统比较。分析结果表明,logits通常是更有效的知识来源,并建议在模型设计方面具备足够的特征维度,从而为基于知识蒸馏的转移学习提供实用指南。
本文通过实验证明了正则化(即normalisation)、软最大值函数以及投影层是知识蒸馏的关键因素,并提出了一种简单的软最大函数来解决容量差异问题。实验结果表明,使用这些洞见可以实现与最先进的知识蒸馏技术相当或更好的性能,而且计算效率更高。
Mar, 2023
本文提出了一种基于标准化的知识蒸馏方法(NormKD),通过自定义每个样本的温度来提高知识蒸馏的效果,并在图像分类的任务中表现出明显的优越性。此外,NormKD可轻松应用于其他基于logit的方法,并达到接近或甚至超越基于特征的方法的性能。
Aug, 2023
本文主要介绍了一种新的逻辑知识蒸馏方法,即基于比例分离的蒸馏方法(SDD),通过将全局逻辑输出解耦成多个局部逻辑输出,并建立相应的蒸馏管道,帮助学生模型挖掘和继承细粒度和明确的逻辑知识,从而提高其识别能力。这种方法尤其在细粒度分类任务中展现了出色的效果。
Mar, 2024
知识蒸馏是一种将复杂模型压缩为更小更简单的技术,本论文综述了知识蒸馏的原理、技术和在计算机视觉领域的应用,并专注于探讨知识蒸馏的好处以及提高其有效性所需克服的问题。
Apr, 2024
通过综合考虑分类和回归任务的重要性差异,在目标检测中提出了一种能够应对知识蒸馏中偏见预测问题的方法。
提出一种基于特征的知识不确定性蒸馏范式,能够与现有的蒸馏方法无缝集成,通过蒙特卡洛dropout技术引入知识不确定性,提高学生模型对潜在知识的探索能力,并在目标检测任务中获得有效性验证。
Jun, 2024
本文解决了基于logit的知识蒸馏在分类任务中性能较差的问题。提出了一种新损失函数,使学生模型能够适应性地学习显性知识和隐性知识,同时分离分类与蒸馏任务以增强模型效果。实验证明,该适应性显性知识转移方法在CIFAR-100和ImageNet数据集上超越了现有的知识蒸馏技术。
Sep, 2024
本研究解决了基于逻辑的知识蒸馏在分类中性能较低的问题。通过引入一种新损失函数,使学生模型能够自适应地学习显式知识和隐式知识。此外,研究还提出了将分类和蒸馏任务分离的方法。实验结果表明,所提出的自适应显式知识转移方法在CIFAR-100和ImageNet数据集上超越了现有的先进蒸馏方法。