深度学习中集成、知识蒸馏和自蒸馏的理解

Dec, 2020

深度学习中集成、知识蒸馏和自蒸馏的理解

Towards Understanding Ensemble, Knowledge Distillation and Self-Distillation in Deep Learning

Zeyuan Allen-Zhu, Yuanzhi Li

TL;DR探讨了深度学习模型集合如何提高测试准确率，以及如何使用知识蒸馏将集合的优越性能提取到单个模型中。并在此基础上，提出了一种新的理论，解释了在数据具有 “多视图” 结构的情况下，各自独立训练的神经网络集合确实可以明显提高测试准确率，而这种优越的效果也可以通过训练单个模型来匹配集合输出来证明，结果揭示了在深度学习中，集合模型以及 “黑暗知识” 是如何作用于知识蒸馏中的。最后，还证明了自身蒸馏也可以看作是隐式地组合集合模型和知识蒸馏以提高测试准确率。

Abstract

We formally study how ensemble of deep learning models can improve test accuracy, and how the superior performance of ensemble can be dist

deep learning ensemble knowledge distillation multi-view test accuracy

发现论文，激发创造

神经网络知识蒸馏

通过将一个 ensemble 中的知识压缩成单个模型的方法，我们可以显著提高基于 MNIST 数据集的模型性能并将这种方法应用于商业系统的声学模型，同时我们还提出了一种由专家模型和完整模型组成的新型 ensemble。

Mar, 2015

统一而有效的集成知识蒸馏

本文提出了一种有效的集成知识蒸馏方法，该方法能够从多个教师模型学习未标记数据的知识，并据此训练单个学生模型。研究表明，通过考虑不同教师之间的预测差异以及样本难度，可以进一步提高蒸馏的效果。

Apr, 2022

集成分布蒸馏的通用框架

通过构建神经网络集成，可以更好地进行预测和不确定性估计，并将不确定性分解为数据不确定性和模型不确定性。本文提出了一种保持神经网络集成分解性质的蒸馏框架，其预测性能与标准蒸馏相当。

Feb, 2020

集成知识蒸馏：学习更强大和高效的网络

本研究提出了一种集成知识蒸馏方法，可以从不同的教师网络中提取知识，并将其蒸馏成一个紧凑的学生模型，以获得更好的分类准确性和模型泛化性能。实验结果表明，这种集成方法可以显著提高模型的分类准确性和泛化性能，特别是在数据量有限的情况下。

Sep, 2019

知识蒸馏提高深度神经网络的可解释性

使用知识蒸馏技术将深度神经网络转换成决策树，以同时实现较好的性能和可解释性，并比基准决策树模型获得显著更高的精度，在 TensorFlow 平台上实现对大数据集的可扩展性。

Dec, 2018

实用知识蒸馏：使用 DNNs 击败 DNNs

该研究探索了用于表格数据集的数据处理方法，包括数据压缩、数据去噪和优化集成方法等，结果证明这些方法可以改进梯度提升模型和基于 DNN 架构的模型，并且在数据规模越小的情况下 DNN 模型表现越优越。

Feb, 2023

从集成学习中学习时，多样性非常重要

通过对集成方法进行扰动，可以增加模型多样性并提升性能。

Oct, 2021

EnsembleNet：多头模型的端到端优化

本研究通过提出更为简单有效的对应蒸馏架构，将单一深度神经网络转化为最优性能且规模更小的多头模型，提高机器学习模型的性能并实现端到端优化。

May, 2019

通过知识蒸馏提高用于自然语言理解的多任务深度神经网络

本文使用知识蒸馏方法对多任务深度神经网络进行优化，提供了解决集成大型神经网络问题的方法，并在 GLUE 基准测试中取得了显著的成果。

Apr, 2019

神经机器翻译的集成蒸馏

论文介绍了基于知识蒸馏的神经机器翻译方法，并探讨了如何快速训练单个 NMT 系统，以获得来自多个教师网络的同等翻译质量，通过基于教师网络的数据过滤方法实现训练加速和翻译质量的提高。

Feb, 2017