神经网络知识蒸馏
探讨了深度学习模型集合如何提高测试准确率,以及如何使用知识蒸馏将集合的优越性能提取到单个模型中。并在此基础上,提出了一种新的理论,解释了在数据具有 “多视图” 结构的情况下,各自独立训练的神经网络集合确实可以明显提高测试准确率,而这种优越的效果也可以通过训练单个模型来匹配集合输出来证明,结果揭示了在深度学习中,集合模型以及 “黑暗知识” 是如何作用于知识蒸馏中的。最后,还证明了自身蒸馏也可以看作是隐式地组合集合模型和知识蒸馏以提高测试准确率。
Dec, 2020
本文提出了一种新颖的基于知识蒸馏的模型压缩框架,在学生集成中启用了同时学习的知识蒸馏,并在压缩的学生模型上蒸馏同时学到的集成知识,该方法在不需要预训练权重的情况下同时训练了压缩学生和集成教师。该方法可以交付多个压缩的学生,并且使用我们的框架,可以以高效和灵活的方式适应不同场景。实验结果表明,使用我们的框架,一个压缩率达 97% 的 ResNet110 学生模型在 CIFAR100 数据集上相对精度提高了 10.64%,类似地,一个压缩率达 95%的 DenseNet-BC (k = 12)模型相对精度提高了 8.17%。
Nov, 2020
本研究提出了一种集成知识蒸馏方法,可以从不同的教师网络中提取知识,并将其蒸馏成一个紧凑的学生模型,以获得更好的分类准确性和模型泛化性能。实验结果表明,这种集成方法可以显著提高模型的分类准确性和泛化性能,特别是在数据量有限的情况下。
Sep, 2019
通过构建神经网络集成,可以更好地进行预测和不确定性估计,并将不确定性分解为数据不确定性和模型不确定性。本文提出了一种保持神经网络集成分解性质的蒸馏框架,其预测性能与标准蒸馏相当。
Feb, 2020
本文提出了一种用于回归问题的新的知识蒸馏形式,其中包括教师异常值拒绝损失函数和多任务网络等内容,并通过对多个数据集的评估表明,该方法可以提高准确性。
Feb, 2020
使用知识蒸馏技术将深度神经网络转换成决策树,以同时实现较好的性能和可解释性,并比基准决策树模型获得显著更高的精度,在 TensorFlow 平台上实现对大数据集的可扩展性。
Dec, 2018
论文介绍了基于知识蒸馏的神经机器翻译方法,并探讨了如何快速训练单个 NMT 系统,以获得来自多个教师网络的同等翻译质量,通过基于教师网络的数据过滤方法实现训练加速和翻译质量的提高。
Feb, 2017
提出了一种无需训练集的知识蒸馏方法,仅利用预训练模型释放的一些额外元数据,就能将大规模数据集上训练的深度神经网络压缩到其大小的一小部分,并探索了可用于该方法的不同类型的元数据以及使用它们所涉及的权衡。
Oct, 2017