知识蒸馏训练动态深入研究
本文介绍了一种组合使用低精度计算和蒸馏知识来提高深度学习网络性能的方法,该方法取得了 ImageNet 数据集上 ResNet 架构各种变体的三元精度和 4 位精度的准确率的最新成果,并提供了三种应用蒸馏知识技术到训练和部署流程中的方案。
Nov, 2017
该论文提出了一种基于知识蒸馏的对象检测模型微调方法,采用区域提议共享机制和自适应知识转移方法,根据模型的不同表现区分性能好坏,同时使用知识衰减策略帮助提高模型的泛化性能。实验结果表明,该方法在COOC数据集上取得了比基线模型更好的检测结果。
Jun, 2020
该研究提出了一种基于伪标签学生模型训练和fine-tuning的目标检测蒸馏方法,可以实现使用未标注的数据提高模型性能,同时减少标注数据的需求,还可以用于领域自适应。实验证明该方法能够取得更好的目标检测性能。
May, 2021
本文介绍了一种用于减小大规模计算机视觉模型尺寸、同时不影响性能的知识蒸馏方法,并且明确了影响该方法有效性的设计选择。通过全面的实验研究,我们在多种视觉数据集上获得了令人信服的结果,并实现了在ImageNet数据集上的ResNet-50模型的最新表现,其top-1准确率为82.8%。
Jun, 2021
研究了一种名为Knowledge Distillation as Efficient Pre-training (KDEP)的替代预训练策略,旨在通过非参数特征维度对齐的基于特征的KD方法将先前已经训练好的模型的学习特征表示有效地转移到新的学生模型,实现在不需要大规模数据和较少预训练时间的情况下在三个下游任务和九个下游数据集中实现与有监督预训练的同等效果。
Mar, 2022
通过将传统的知识蒸馏 (KD) 损失重构为 TCKD 和 NCKD 两部分,本文证明了 logit distillation 方法的潜在价值,并提出了解耦知识蒸馏 (DKD) 方法以更高效地发挥 TCKD 和 NCKD 的作用,从而在图像分类和目标检测任务的 CIFAR-100、ImageNet 和 MS-COCO 数据集上取得了可比甚至更好的结果和更好的训练效率。
Mar, 2022
本文介绍了一种名为 DIST 的方法,它可以更好地从一个更强的教师模型中进行知识蒸馏,通过保留教师和学生之间的预测关系,提出了基于相关损失的方法,从而实现了最先进的性能。
May, 2022
研究表明,利用动态先验知识的知识蒸馏方法可以更好地从大型模型向小型模型传递知识表示,提高学生模型的性能,在图像分类和目标检测等领域表现卓越。
Jun, 2022
知识蒸馏是一种将复杂模型压缩为更小更简单的技术,本论文综述了知识蒸馏的原理、技术和在计算机视觉领域的应用,并专注于探讨知识蒸馏的好处以及提高其有效性所需克服的问题。
Apr, 2024