神经网络知识蒸馏

NIPSMar, 2015

Distilling the Knowledge in a Neural Network

Geoffrey Hinton, Oriol Vinyals, Jeff Dean

TL;DR通过将一个 ensemble 中的知识压缩成单个模型的方法，我们可以显著提高基于 MNIST 数据集的模型性能并将这种方法应用于商业系统的声学模型，同时我们还提出了一种由专家模型和完整模型组成的新型 ensemble。

Abstract

A very simple way to improve the performance of almost any machine learning algorithm is to train many different models on the same data and then to average their predictions. Unfortunately, making predictions using a whole →

machine learning ensemble compression mnist acoustic model

发现论文，激发创造

深度学习中集成、知识蒸馏和自蒸馏的理解

探讨了深度学习模型集合如何提高测试准确率，以及如何使用知识蒸馏将集合的优越性能提取到单个模型中。并在此基础上，提出了一种新的理论，解释了在数据具有 “多视图” 结构的情况下，各自独立训练的神经网络集合确实可以明显提高测试准确率，而这种优越的效果也可以通过训练单个模型来匹配集合输出来证明，结果揭示了在深度学习中，集合模型以及 “黑暗知识” 是如何作用于知识蒸馏中的。最后，还证明了自身蒸馏也可以看作是隐式地组合集合模型和知识蒸馏以提高测试准确率。

Dec, 2020

在线集成模型压缩技术 —— 基于知识蒸馏

本文提出了一种新颖的基于知识蒸馏的模型压缩框架，在学生集成中启用了同时学习的知识蒸馏，并在压缩的学生模型上蒸馏同时学到的集成知识，该方法在不需要预训练权重的情况下同时训练了压缩学生和集成教师。该方法可以交付多个压缩的学生，并且使用我们的框架，可以以高效和灵活的方式适应不同场景。实验结果表明，使用我们的框架，一个压缩率达 97% 的 ResNet110 学生模型在 CIFAR100 数据集上相对精度提高了 10.64％，类似地，一个压缩率达 95％的 DenseNet-BC （k = 12）模型相对精度提高了 8.17％。

Nov, 2020

集成知识蒸馏：学习更强大和高效的网络

本研究提出了一种集成知识蒸馏方法，可以从不同的教师网络中提取知识，并将其蒸馏成一个紧凑的学生模型，以获得更好的分类准确性和模型泛化性能。实验结果表明，这种集成方法可以显著提高模型的分类准确性和泛化性能，特别是在数据量有限的情况下。

Sep, 2019

集成分布蒸馏的通用框架

通过构建神经网络集成，可以更好地进行预测和不确定性估计，并将不确定性分解为数据不确定性和模型不确定性。本文提出了一种保持神经网络集成分解性质的蒸馏框架，其预测性能与标准蒸馏相当。

Feb, 2020

针对不确定性感知知识蒸馏的简单正则化

本研究探讨一种简单的正则化方法，用于将多个机器学习模型的集成逐一蒸馏到一个神经网络中，以达到保持多样性，精度和不确定性估计特性的目的。

May, 2022

知识蒸馏：综述

该论文从知识分类、训练方案、教师 - 学生架构、蒸馏算法、性能比较和应用等方面全面调查了知识蒸馏。并简要回顾了知识蒸馏中的挑战，并探讨了未来的研究方向。

Jun, 2020

知识蒸馏在小模型回归问题训练中的高效方法

本文提出了一种用于回归问题的新的知识蒸馏形式，其中包括教师异常值拒绝损失函数和多任务网络等内容，并通过对多个数据集的评估表明，该方法可以提高准确性。

Feb, 2020

知识蒸馏提高深度神经网络的可解释性

使用知识蒸馏技术将深度神经网络转换成决策树，以同时实现较好的性能和可解释性，并比基准决策树模型获得显著更高的精度，在 TensorFlow 平台上实现对大数据集的可扩展性。

Dec, 2018

神经机器翻译的集成蒸馏

论文介绍了基于知识蒸馏的神经机器翻译方法，并探讨了如何快速训练单个 NMT 系统，以获得来自多个教师网络的同等翻译质量，通过基于教师网络的数据过滤方法实现训练加速和翻译质量的提高。

Feb, 2017

深度神经网络的无数据知识蒸馏

提出了一种无需训练集的知识蒸馏方法，仅利用预训练模型释放的一些额外元数据，就能将大规模数据集上训练的深度神经网络压缩到其大小的一小部分，并探索了可用于该方法的不同类型的元数据以及使用它们所涉及的权衡。

Oct, 2017