该论文提出了一种名为 EnD^2 的新方法,它使用 Prior Networks 对模型的输出分布进行建模,并使单个模型保留了集成模型减少计算成本和提高分类性能的同时,还能保留集合多样性的信息,用于估计不确定性。该方法不仅可适用于人工数据集,还取得了在 CIFAR-10、CIFAR-100 和 TinyImageNet 数据集上优于其他方法的成果。
Apr, 2019
研究了集成蒸馏作为一个通用框架,以产生良好校准的结构化预测模型,同时避免在推断时集成蒸馏的代价,本文对其在两个任务上进行了验证:命名实体识别和机器翻译。我们发现,在这两个任务中,集成蒸馏产生的模型保留了集成的性能和校准优势,而且只需要在测试时使用单个模型。
Oct, 2020
通过基于共享神经网络体的分布式方法 Hydra 来提取集合的多样性,分散集合的信息来提高模型收缩和泛化的性能.
Jan, 2020
这篇论文提出了一种称为 “Ensemble Distribution Distillation” 的机器学习方法,通过训练 Dirichlet 分布来捕捉整个集成预测和不确定性估计。为了解决在大规模任务中 Dirichlet log-likelihood 的梯度问题,作者提出了一种新的训练目标来最小化 Ensemble Distribution Distillation 的反向 KL 散度,从而在 ImageNet 和 WMT17 En-De 数据集上展示了它的优越性。
May, 2021
探讨了深度学习模型集合如何提高测试准确率,以及如何使用知识蒸馏将集合的优越性能提取到单个模型中。并在此基础上,提出了一种新的理论,解释了在数据具有 “多视图” 结构的情况下,各自独立训练的神经网络集合确实可以明显提高测试准确率,而这种优越的效果也可以通过训练单个模型来匹配集合输出来证明,结果揭示了在深度学习中,集合模型以及 “黑暗知识” 是如何作用于知识蒸馏中的。最后,还证明了自身蒸馏也可以看作是隐式地组合集合模型和知识蒸馏以提高测试准确率。
Dec, 2020
本文介绍了一种相对简单易用的基于在线蒸馏的神经网络训练优化方法,该方法使得我们能够在使用大规模数据集时提升模型精度并提高训练速度,同时在成本较低的情况下显著提高模型的预测可复现性。
Apr, 2018
本研究通过提出更为简单有效的对应蒸馏架构,将单一深度神经网络转化为最优性能且规模更小的多头模型,提高机器学习模型的性能并实现端到端优化。
May, 2019
本研究提出了一种新颖的训练方法 S2D,它可以有效地训练出一个单一模型以估算不确定性,也可以构建这些模型的集合并应用分层集成蒸馏方法,结果显示 S2D 模型优于标准模型和 Monte-Carlo Dropout,甚至连标准深度集成都能被 S2D 集成和新型蒸馏模型超越。另外还进行了 LSUN、Tiny ImageNet 和 SVHN 的外分布检测实验。
Mar, 2022
通过对集成方法进行扰动,可以增加模型多样性并提升性能。
Oct, 2021
本研究考察了在大规模自然语言序列到序列数据中应用 Ensemble Distribution Distillation (EDD)来压缩昂贵的集成模型的优越性能为成本较低的单一模型的有效性,既能够分离知识(认识不一致性)和数据(随机数据)不确定性,还能解决大词汇量数据的复杂性,并在非分布式检测中表现出色。
May, 2023