EnsembleNet：多头模型的端到端优化

May, 2019

EnsembleNet：多头模型的端到端优化

EnsembleNet: End-to-End Optimization of Multi-headed Models

Hanhan Li, Joe Yue-Hei Ng, Paul Natsev

TL;DR本研究通过提出更为简单有效的对应蒸馏架构，将单一深度神经网络转化为最优性能且规模更小的多头模型，提高机器学习模型的性能并实现端到端优化。

Abstract

ensembling is a universally useful approach to boost the performance of machine learning models. However, individual models in an ensemble were traditionally trained independently in separate stages without infor

ensembling machine learning co-distillation neural network end-to-end

发现论文，激发创造

集成分布蒸馏的通用框架

通过构建神经网络集成，可以更好地进行预测和不确定性估计，并将不确定性分解为数据不确定性和模型不确定性。本文提出了一种保持神经网络集成分解性质的蒸馏框架，其预测性能与标准蒸馏相当。

Feb, 2020

在线蒸馏实现的大规模分布式神经网络训练

本文介绍了一种相对简单易用的基于在线蒸馏的神经网络训练优化方法，该方法使得我们能够在使用大规模数据集时提升模型精度并提高训练速度，同时在成本较低的情况下显著提高模型的预测可复现性。

Apr, 2018

Hydra：用于模型蒸馏的集合多样性保持技术

通过基于共享神经网络体的分布式方法 Hydra 来提取集合的多样性，分散集合的信息来提高模型收缩和泛化的性能.

Jan, 2020

深度学习中集成、知识蒸馏和自蒸馏的理解

探讨了深度学习模型集合如何提高测试准确率，以及如何使用知识蒸馏将集合的优越性能提取到单个模型中。并在此基础上，提出了一种新的理论，解释了在数据具有 “多视图” 结构的情况下，各自独立训练的神经网络集合确实可以明显提高测试准确率，而这种优越的效果也可以通过训练单个模型来匹配集合输出来证明，结果揭示了在深度学习中，集合模型以及 “黑暗知识” 是如何作用于知识蒸馏中的。最后，还证明了自身蒸馏也可以看作是隐式地组合集合模型和知识蒸馏以提高测试准确率。

Dec, 2020

组合分布蒸馏

该论文提出了一种名为 EnD^2 的新方法，它使用 Prior Networks 对模型的输出分布进行建模，并使单个模型保留了集成模型减少计算成本和提高分类性能的同时，还能保留集合多样性的信息，用于估计不确定性。该方法不仅可适用于人工数据集，还取得了在 CIFAR-10、CIFAR-100 和 TinyImageNet 数据集上优于其他方法的成果。

Apr, 2019

神经网络知识蒸馏

通过将一个 ensemble 中的知识压缩成单个模型的方法，我们可以显著提高基于 MNIST 数据集的模型性能并将这种方法应用于商业系统的声学模型，同时我们还提出了一种由专家模型和完整模型组成的新型 ensemble。

Mar, 2015

从集成学习中学习时，多样性非常重要

通过对集成方法进行扰动，可以增加模型多样性并提升性能。

Oct, 2021

为何多个网络头胜过单独一个：训练深度神经网络的多样集成

本研究探讨了如何最佳地建立卷积神经网络的组合，比较了多种资源共享和差异性鼓励的策略，其中提出了 TreeNets 算法，最后通过端到端的训练以统一的损失函数获得比传统算法更高的准确率。

Nov, 2015

当集成较小的模型比单个大模型更高效时

本文研究使用 ensemble 方法来提高模型性能的有效性，实验结果表明，与单个模型相比，用 ensemble 组合模型在准确率和计算效率上有更好的表现，并提出 ensemble 模型作为模型推理速度和准确性之间的灵活权衡。

May, 2020

结构化预测的集成蒸馏：校准、准确、快速 - 选择三项

研究了集成蒸馏作为一个通用框架，以产生良好校准的结构化预测模型，同时避免在推断时集成蒸馏的代价，本文对其在两个任务上进行了验证：命名实体识别和机器翻译。我们发现，在这两个任务中，集成蒸馏产生的模型保留了集成的性能和校准优势，而且只需要在测试时使用单个模型。

Oct, 2020