知识流:超越你的教师
本文从严格性控制角度研究了深度神经网络的教师网络和学生网络的优化问题。通过针对教师网络训练中的宽松性进行优化,使得学生网络在学习过程中更容易获得跨类别相似性信息,从而在 CIFAR100 和 ILSVRC2012 等数据集的图像分类任务中取得更高的分类准确率。
May, 2018
本文提出了一种基于知识蒸馏的深度神经网络训练方法,通过使用教师网络的中间表示学习,允许训练比教师更深而且更窄的学生网络,并引入了额外参数来进行深浅网络之间的映射,以实现降低参数以提高运行速度或提升性能的目的。在 CIFAR-10 数据集上的实验表明,这种方法能够在参数规模几乎是教师网络的十分之一的条件下,取得比教师网络更好的性能。
Dec, 2014
本文提出了一种新的知识蒸馏方法,通过建模教师模型各层之间的信息流,训练学生模型来模拟信息流。该方法通过适当的监督方案解决了训练过程中不同阶段的监管问题,并设计和训练了一个适当的辅助教师模型,作为一种代理模型,能够 “解释” 教师的工作方式给学生。实验证明该方法对于四个图像数据集和多种不同的评估设置均有效。
May, 2020
本论文针对深度神经网络过于庞大以至于不能部署在移动设备等边缘设备的问题,提出了一种基于知识蒸馏的网络压缩方法。然而,该论文表明,如果学生网络与教师网络之间的差距太大,那么知识蒸馏的性能会下降;为此,该论文提出了一种多步知识蒸馏的方法,通过使用一个中等大小的网络(即教师助手)来弥补学生与教师之间的差距,并通过对 CIFAR-10,100 和 ImageNet 数据集进行广泛的实验证明了该方法的有效性。
Feb, 2019
本文提出一种基于多个 teacher assistant 的密集引导知识蒸馏方法,通过逐渐减小模型大小有效地弥合 teacher 和 student 之间的巨大差距,实现了对 student 的更高效学习,并在 CIFAR-10、CIFAR-100 和 ImageNet 上的多个 backbone 架构中取得了显著的性能提升。
Sep, 2020
该论文提出了一种基于预训练卷积神经网络的教师 - 学生学习方法,通过多个教师的知识筛选和层次式训练策略,将目标学生网络定制到不同任务,从而在多项基准测试中实现了优异结果。
May, 2019
本文提出了一种名为 ProKT 的知识蒸馏方法,通过将教师模型的监督信号投影到学生参数空间中,从而在优化过程中实现了更好的局部最优解,实验结果表明,与其他现有的知识蒸馏方法相比,ProKT 在图像和文本数据集上都展现出了卓越的性能。
Jul, 2021
本文提出了一种基于特征嵌入的新型教师 - 学生模型,使用局部保持损失函数优化低维特征生成,从而避免引入额外参数,通过实验证明该方法计算和存储复杂度均优于现有教师 - 学生模型。
Dec, 2018