通过将一个 ensemble 中的知识压缩成单个模型的方法,我们可以显著提高基于 MNIST 数据集的模型性能并将这种方法应用于商业系统的声学模型,同时我们还提出了一种由专家模型和完整模型组成的新型 ensemble。
Mar, 2015
通过构建神经网络集成,可以更好地进行预测和不确定性估计,并将不确定性分解为数据不确定性和模型不确定性。本文提出了一种保持神经网络集成分解性质的蒸馏框架,其预测性能与标准蒸馏相当。
Feb, 2020
本研究提出了一种替代贝叶斯 NN 的简单实现方法,其能够产生高质量的预测不确定性估计,并在分类和回归数据集上进行了实验以证明这一点。此外,研究还评估了在已知和未知数据分布下的预测不确定性,并证明该方法能够在超出分布的样本上表现出更高的不确定性,同时在 ImageNet 上证明了该方法的可扩展性。
Dec, 2016
本文提出了一种用于回归问题的新的知识蒸馏形式,其中包括教师异常值拒绝损失函数和多任务网络等内容,并通过对多个数据集的评估表明,该方法可以提高准确性。
该论文介绍了一种基于贝叶斯原理的神经网络反演方法,利用对先验分布采样的数据正则化参数,从而提高神经网络模型的预测不确定性识别和量化能力。经过理论和实证分析,该方法相对于传统的平均集成技术具有更好的性能表现。
Oct, 2018
本文通过应用知识蒸馏和信任正则化方法来减小模型大小,从而降低了循环神经网络(RNN)语言模型的计算成本,并保持了该模型在 Penn Treebank 数据集上的最先进困惑度结果,同时在声音识别任务中没有降低单词错误率(WER)。
Apr, 2019
通过对同标签样本之间的预测分布进行正则化,使得深度神经网络在图像分类任务中显著提高预测能力和置信度表现的一种新的正则化方法。
Mar, 2020
探讨了深度学习模型集合如何提高测试准确率,以及如何使用知识蒸馏将集合的优越性能提取到单个模型中。并在此基础上,提出了一种新的理论,解释了在数据具有 “多视图” 结构的情况下,各自独立训练的神经网络集合确实可以明显提高测试准确率,而这种优越的效果也可以通过训练单个模型来匹配集合输出来证明,结果揭示了在深度学习中,集合模型以及 “黑暗知识” 是如何作用于知识蒸馏中的。最后,还证明了自身蒸馏也可以看作是隐式地组合集合模型和知识蒸馏以提高测试准确率。
Dec, 2020
本研究提出了一种新颖的训练方法 S2D,它可以有效地训练出一个单一模型以估算不确定性,也可以构建这些模型的集合并应用分层集成蒸馏方法,结果显示 S2D 模型优于标准模型和 Monte-Carlo Dropout,甚至连标准深度集成都能被 S2D 集成和新型蒸馏模型超越。另外还进行了 LSUN、Tiny ImageNet 和 SVHN 的外分布检测实验。
Mar, 2022
SNGP 基于权重规范化和高斯过程,解决了深度神经网络中单模型在预测、校准和域外检测上的不确定性问题。
Jun, 2020