近期师生学习研究综述
在本研究中,我们提出了一种将知识蒸馏应用于迁移学习的机器学习架构,称为 TL + KD,并对它与传统 TL 的图像分类效果进行了量化和定性比较。结果表明,在微调过程中,使用较大的教师网络提供指导和知识可以改善学生网络以实现更好的验证性能,同时研究了不同场景下的性能表现。
Oct, 2022
本文提出了新型的知识蒸馏损失函数,其通过保留教师神经网络中相似输入的激活模式特征,指导学生神经网络的训练,使其在保留各自的表征空间中,能够准确地保持输入的相似度。实验结果表明了该方法的潜力。
Jul, 2019
协作蒸馏(cooperative distillation)是一种新型的知识蒸馏方法,通过学生模型发现性能缺陷并寻找教师模型来产生反事实实例,提供了一种有效的方式传递知识,用于不同架构、算法及特征空间的学习者之间。该方法不仅在多个数据集上优于基线模型如迁移学习、自监督学习和多种知识蒸馏算法,还可以用于前述技术无法应用的情景。
Feb, 2024
通过使用知识蒸馏技术,从大模型 (教师模型) 中提取信息,训练小模型 (学生模型) 可以解决将大型深度学习模型部署在移动设备和嵌入式设备上的问题。本文提出了一种基于蒸馏度量的比较不同知识蒸馏算法性能的新指标,并通过对知识蒸馏技术应用于深度学习模型进行调查,得出了一些有趣的结论。
Jul, 2020
本文提出了一种基于演员 - 评论家方法的知识蒸馏框架,旨在从教师模型中选择适当的知识来训练学生模型,实验结果表明该方法在 GLUE 数据集上优于常规基线模型。
Feb, 2023
本文将动态增量学习引入到知识蒸馏中,提出了一种教育蒸馏的蒸馏策略,通过将学生模型从完整的学生模型分割为低级模型,结合设计的教学参考层,逐渐提升学生模型的年级,并从更多的教师模型中进行学习和蒸馏,使得学生模型的性能逐渐从低级到高级逐阶段提高。教育蒸馏策略结合蒸馏算法在公共数据集 CIFAR100、Caltech256 和 Food-101 数据集上比单一蒸馏算法取得了更优的结果。
Nov, 2023