知识蒸馏和师生学习在视觉智能中的应用:评述与新观点
本文挑战了使用强大的teacher model教授弱student model的共识,详细阐述了KD和label smoothing regularization之间的关系,提出了Teacher-free Knowledge Distillation(Tf-KD)框架,通过自学和手动设计正则化分布,实现了与正常KD相媲美的性能。
Sep, 2019
该论文提出一种基于神经网络结构搜索的知识蒸馏模型AKD,可以将老师模型的知识蒸馏到学生模型的参数和结构中。实验表明AKD方法比传统的NAS和KD方法更有效,在ImageNet分类任务和其他任务中都能取得最先进的结果。
Nov, 2019
本研究探讨如何使用知识蒸馏从黑盒模型中训练神经网络进行视觉识别,使用混合和主动学习等方法,从而在节省计算和数据集成本的同时保持高性能。
Mar, 2020
提出了一种名为DR-KD的简单而有效的知识蒸馏框架,通过在传统训练中动态调整目标来使学生变成自身的教师,并在蒸馏信息时进行错误更正,从而消除了笨重的教师模型的必要性,并在需要分类或对象识别的任何深度神经网络训练中均可使用,能够在不增加额外训练成本的情况下较其他知识蒸馏方法显著提高Tiny ImageNet测试准确性2.65%。
Jan, 2022
研究了一种名为Knowledge Distillation as Efficient Pre-training (KDEP)的替代预训练策略,旨在通过非参数特征维度对齐的基于特征的KD方法将先前已经训练好的模型的学习特征表示有效地转移到新的学生模型,实现在不需要大规模数据和较少预训练时间的情况下在三个下游任务和九个下游数据集中实现与有监督预训练的同等效果。
Mar, 2022
研究表明,利用动态先验知识的知识蒸馏方法可以更好地从大型模型向小型模型传递知识表示,提高学生模型的性能,在图像分类和目标检测等领域表现卓越。
Jun, 2022
本文提出了一种基于教师模型稍加简化后的知识表示的学生友好型知识蒸馏方法(SKD),其包含软化处理和学习简化器,通过联合训练确保知识简化过程与学生模型的训练目标相关,提高了训练效率和准确性。实验结果表明,该方法在CIFAR-100和ImageNet数据集上取得了最优性能。
May, 2023
通过教师-学生架构,本综述对多种知识蒸馏目标进行了广泛的探索和总结,包括知识压缩、知识扩展、知识适应和知识增强等方面,为行业从业人员和学术界提供有关教师-学生架构的宝贵见解和指导。
Aug, 2023
我们提出了一种新颖的多教师知识蒸馏(MTKD)框架,专门用于图像超分辨率,通过结合和增强多个教师模型的输出来指导紧凑的学生网络的学习过程,并通过在空间和频率域中观察差异来优化训练过程,从而在超分辨率性能上实现了明显的改善。
Apr, 2024