优秀教师,优秀学生:基于动态先验知识的知识蒸馏
本文挑战了使用强大的teacher model教授弱student model的共识,详细阐述了KD和label smoothing regularization之间的关系,提出了Teacher-free Knowledge Distillation(Tf-KD)框架,通过自学和手动设计正则化分布,实现了与正常KD相媲美的性能。
Sep, 2019
本文讨论了知识蒸馏和S-T学习,提供了对知识蒸馏的解释以及该方法的最新进展、技术细节和视觉应用状况的全面调查,并分析了现有方法的潜力和挑战,展望了知识蒸馏和S-T学习的未来方向。
Apr, 2020
该论文提出了一种基于知识蒸馏的对象检测模型微调方法,采用区域提议共享机制和自适应知识转移方法,根据模型的不同表现区分性能好坏,同时使用知识衰减策略帮助提高模型的泛化性能。实验结果表明,该方法在COOC数据集上取得了比基线模型更好的检测结果。
Jun, 2020
本研究针对目标检测中知识蒸馏问题,通过分析教师和学生模型行为差异提出了基于Rank Mimicking和Prediction-guided Feature Imitation的知识蒸馏方法,有效地提高了学生模型的精确度和加速度。
Dec, 2021
提出了一种名为DR-KD的简单而有效的知识蒸馏框架,通过在传统训练中动态调整目标来使学生变成自身的教师,并在蒸馏信息时进行错误更正,从而消除了笨重的教师模型的必要性,并在需要分类或对象识别的任何深度神经网络训练中均可使用,能够在不增加额外训练成本的情况下较其他知识蒸馏方法显著提高Tiny ImageNet测试准确性2.65%。
Jan, 2022
研究了一种名为Knowledge Distillation as Efficient Pre-training (KDEP)的替代预训练策略,旨在通过非参数特征维度对齐的基于特征的KD方法将先前已经训练好的模型的学习特征表示有效地转移到新的学生模型,实现在不需要大规模数据和较少预训练时间的情况下在三个下游任务和九个下游数据集中实现与有监督预训练的同等效果。
Mar, 2022
使用简单的知识蒸馏技术可以显著缩小教师模型与学生模型之间的性能差距,通过使用预先训练的教师模型的判别分类器进行学生推断,并通过特征对齐训练学生编码器来实现与教师相同的性能。添加新的投影仪使学生编码器与教师分类器匹配,从而将这种技术应用于各种教师和学生架构下达到良好的压缩率与状态的最佳结果。
Mar, 2022
本文介绍了一种名为 DIST 的方法,它可以更好地从一个更强的教师模型中进行知识蒸馏,通过保留教师和学生之间的预测关系,提出了基于相关损失的方法,从而实现了最先进的性能。
May, 2022
提出一种基于特征的知识不确定性蒸馏范式,能够与现有的蒸馏方法无缝集成,通过蒙特卡洛dropout技术引入知识不确定性,提高学生模型对潜在知识的探索能力,并在目标检测任务中获得有效性验证。
Jun, 2024