提出一种基于特征的知识不确定性蒸馏范式,能够与现有的蒸馏方法无缝集成,通过蒙特卡洛 dropout 技术引入知识不确定性,提高学生模型对潜在知识的探索能力,并在目标检测任务中获得有效性验证。
Jun, 2024
本文介绍了一种基于不确定性采样和自适应混合的知识蒸馏方法 ——UNIX,该方法可有效降低训练中的计算成本并提高性能,得到了 CIFAR100 和 ImageNet 上的验证。
Dec, 2020
本研究提出了一种新颖的训练方法 S2D,它可以有效地训练出一个单一模型以估算不确定性,也可以构建这些模型的集合并应用分层集成蒸馏方法,结果显示 S2D 模型优于标准模型和 Monte-Carlo Dropout,甚至连标准深度集成都能被 S2D 集成和新型蒸馏模型超越。另外还进行了 LSUN、Tiny ImageNet 和 SVHN 的外分布检测实验。
Mar, 2022
本研究通过采用贝叶斯观点,利用深度集成模型来捕捉多种情绪描述符,包括行动单位、离散表情标签和连续描述符,进而应用迭代自蒸馏技术,提出一种用于情绪识别的方法,并针对仅有单一情绪标签可用的情况下,实现情绪不确定性的建模和估计。实验结果表明,与 Temperature Scaling 和 Monte Carol Dropout 相比,我们的算法具有更可靠的不确定性估计。
Jul, 2021
通过构建神经网络集成,可以更好地进行预测和不确定性估计,并将不确定性分解为数据不确定性和模型不确定性。本文提出了一种保持神经网络集成分解性质的蒸馏框架,其预测性能与标准蒸馏相当。
Feb, 2020
本研究探讨一种简单的正则化方法,用于将多个机器学习模型的集成逐一蒸馏到一个神经网络中,以达到保持多样性,精度和不确定性估计特性的目的。
May, 2022
通过自知力蒸馏方法,有效地解决了语言模型在面对多义样本时过于自信地错误预测单一标签的问题,并通过重新校准置信度,在生成更好的标签分布上取得了显著的改进。同时,该方法相对于现有方法在训练模型时更高效,无需额外的训练过程来完善标签分布。
使用知识蒸馏技术将深度神经网络转换成决策树,以同时实现较好的性能和可解释性,并比基准决策树模型获得显著更高的精度,在 TensorFlow 平台上实现对大数据集的可扩展性。
Dec, 2018
本文提出了一种有效的集成知识蒸馏方法,该方法能够从多个教师模型学习未标记数据的知识,并据此训练单个学生模型。研究表明,通过考虑不同教师之间的预测差异以及样本难度,可以进一步提高蒸馏的效果。
Apr, 2022
本文提出一种新的知识蒸馏方法 ——Avatar Knowledge Distillation (AKD),通过生成因扰动转化而得的不同推理集合模型(Avatars)来协助学生模型更有效的学习,同时提出了一种基于推理模型差异的不确定性感知因素,以适应地调整 Avatars 的贡献,这种方法在不增加额外计算成本的前提下,将目标检测的平均精度提高了 0.7 AP,并将语义分割的平均 IoU 提高了 1.83。
May, 2023