Hydra：用于模型蒸馏的集合多样性保持技术

ICMLJan, 2020

Hydra：用于模型蒸馏的集合多样性保持技术

Hydra: Preserving Ensemble Diversity for Model Distillation

Linh Tran, Bastiaan S. Veeling, Kevin Roth, Jakub Swiatkowski, Joshua V. Dillon...

TL;DR通过基于共享神经网络体的分布式方法 Hydra 来提取集合的多样性，分散集合的信息来提高模型收缩和泛化的性能.

Abstract

Ensembles of models have been empirically shown to improve predictive performance and to yield robust measures of uncertainty. However, they are expensive in computation and memory. Therefore, recent research has focused on distilling ensembles into a single compact model, reducing the

ensemble distillation neural network predictive behavior uncertainty

发现论文，激发创造

集成分布蒸馏的通用框架

通过构建神经网络集成，可以更好地进行预测和不确定性估计，并将不确定性分解为数据不确定性和模型不确定性。本文提出了一种保持神经网络集成分解性质的蒸馏框架，其预测性能与标准蒸馏相当。

Feb, 2020

EnsembleNet：多头模型的端到端优化

本研究通过提出更为简单有效的对应蒸馏架构，将单一深度神经网络转化为最优性能且规模更小的多头模型，提高机器学习模型的性能并实现端到端优化。

May, 2019

从集成学习中学习时，多样性非常重要

通过对集成方法进行扰动，可以增加模型多样性并提升性能。

Oct, 2021

组合分布蒸馏

该论文提出了一种名为 EnD^2 的新方法，它使用 Prior Networks 对模型的输出分布进行建模，并使单个模型保留了集成模型减少计算成本和提高分类性能的同时，还能保留集合多样性的信息，用于估计不确定性。该方法不仅可适用于人工数据集，还取得了在 CIFAR-10、CIFAR-100 和 TinyImageNet 数据集上优于其他方法的成果。

Apr, 2019

结构化预测的集成蒸馏：校准、准确、快速 - 选择三项

研究了集成蒸馏作为一个通用框架，以产生良好校准的结构化预测模型，同时避免在推断时集成蒸馏的代价，本文对其在两个任务上进行了验证：命名实体识别和机器翻译。我们发现，在这两个任务中，集成蒸馏产生的模型保留了集成的性能和校准优势，而且只需要在测试时使用单个模型。

Oct, 2020

在线蒸馏实现的大规模分布式神经网络训练

本文介绍了一种相对简单易用的基于在线蒸馏的神经网络训练优化方法，该方法使得我们能够在使用大规模数据集时提升模型精度并提高训练速度，同时在成本较低的情况下显著提高模型的预测可复现性。

Apr, 2018

神经网络知识蒸馏

通过将一个 ensemble 中的知识压缩成单个模型的方法，我们可以显著提高基于 MNIST 数据集的模型性能并将这种方法应用于商业系统的声学模型，同时我们还提出了一种由专家模型和完整模型组成的新型 ensemble。

Mar, 2015

深度学习中集成、知识蒸馏和自蒸馏的理解

探讨了深度学习模型集合如何提高测试准确率，以及如何使用知识蒸馏将集合的优越性能提取到单个模型中。并在此基础上，提出了一种新的理论，解释了在数据具有 “多视图” 结构的情况下，各自独立训练的神经网络集合确实可以明显提高测试准确率，而这种优越的效果也可以通过训练单个模型来匹配集合输出来证明，结果揭示了在深度学习中，集合模型以及 “黑暗知识” 是如何作用于知识蒸馏中的。最后，还证明了自身蒸馏也可以看作是隐式地组合集合模型和知识蒸馏以提高测试准确率。

Dec, 2020

自我分布蒸馏：高效的不确定性估计

本研究提出了一种新颖的训练方法 S2D，它可以有效地训练出一个单一模型以估算不确定性，也可以构建这些模型的集合并应用分层集成蒸馏方法，结果显示 S2D 模型优于标准模型和 Monte-Carlo Dropout，甚至连标准深度集成都能被 S2D 集成和新型蒸馏模型超越。另外还进行了 LSUN、Tiny ImageNet 和 SVHN 的外分布检测实验。

Mar, 2022

集合蒸馏技术扩展动作预测模型

通过将模型集成和精简技术相结合，本研究提出了一种改善受限计算预算下动作预测系统的方法，实验证明模型集成并将其精简成小型学生模型，能够以较低的计算成本保持高性能，从而提高对于具有限计算预算的机器人系统的预测模型精度。

Apr, 2024