针对知识蒸馏的学生友好型教师网络学习
协作蒸馏(cooperative distillation)是一种新型的知识蒸馏方法,通过学生模型发现性能缺陷并寻找教师模型来产生反事实实例,提供了一种有效的方式传递知识,用于不同架构、算法及特征空间的学习者之间。该方法不仅在多个数据集上优于基线模型如迁移学习、自监督学习和多种知识蒸馏算法,还可以用于前述技术无法应用的情景。
Feb, 2024
本文提出了一种基于演员 - 评论家方法的知识蒸馏框架,旨在从教师模型中选择适当的知识来训练学生模型,实验结果表明该方法在 GLUE 数据集上优于常规基线模型。
Feb, 2023
提出一种基于学生的教师网络训练框架 SoTeacher,通过引入 Lipschitz 正则化和一致性正则化改善知识蒸馏算法中教师网络的训练方法,实验证明该方法适用于几乎所有的教师 - 学生架构对,并且可以显著、一致地提高学生的性能。
Jun, 2022
在本研究中,我们提出了一种将知识蒸馏应用于迁移学习的机器学习架构,称为 TL + KD,并对它与传统 TL 的图像分类效果进行了量化和定性比较。结果表明,在微调过程中,使用较大的教师网络提供指导和知识可以改善学生网络以实现更好的验证性能,同时研究了不同场景下的性能表现。
Oct, 2022
本文介绍了一种新的知识蒸馏方法,使用自我监督信号作为辅助任务来提取自预训练教师模型中的丰富知识,并将其成功地传递到学生网络中,从而实现了在各种基准测试下的表现优异。
Jun, 2020
使用简单的知识蒸馏技术可以显著缩小教师模型与学生模型之间的性能差距,通过使用预先训练的教师模型的判别分类器进行学生推断,并通过特征对齐训练学生编码器来实现与教师相同的性能。添加新的投影仪使学生编码器与教师分类器匹配,从而将这种技术应用于各种教师和学生架构下达到良好的压缩率与状态的最佳结果。
Mar, 2022
本论文针对深度神经网络过于庞大以至于不能部署在移动设备等边缘设备的问题,提出了一种基于知识蒸馏的网络压缩方法。然而,该论文表明,如果学生网络与教师网络之间的差距太大,那么知识蒸馏的性能会下降;为此,该论文提出了一种多步知识蒸馏的方法,通过使用一个中等大小的网络(即教师助手)来弥补学生与教师之间的差距,并通过对 CIFAR-10,100 和 ImageNet 数据集进行广泛的实验证明了该方法的有效性。
Feb, 2019
本文提出一种基于多个 teacher assistant 的密集引导知识蒸馏方法,通过逐渐减小模型大小有效地弥合 teacher 和 student 之间的巨大差距,实现了对 student 的更高效学习,并在 CIFAR-10、CIFAR-100 和 ImageNet 上的多个 backbone 架构中取得了显著的性能提升。
Sep, 2020