利用加权平均和多样化扰动改进集成蒸馏
本文介绍了一种新的权重平均策略 ——Diverse Weight Averaging (DiWA),通过多次独立训练获得的模型权重进行平均,以增加模型的功能多样性,并提出了一种新的误差分解方法来说明多模型平均在测试期间建模分布发生变化时成功的原因,并通过实验证明,DiWA 在不增加推理开销的情况下始终提高了 DomainBed 基准的表现。
May, 2022
通过将一个 ensemble 中的知识压缩成单个模型的方法,我们可以显著提高基于 MNIST 数据集的模型性能并将这种方法应用于商业系统的声学模型,同时我们还提出了一种由专家模型和完整模型组成的新型 ensemble。
Mar, 2015
通过构建神经网络集成,可以更好地进行预测和不确定性估计,并将不确定性分解为数据不确定性和模型不确定性。本文提出了一种保持神经网络集成分解性质的蒸馏框架,其预测性能与标准蒸馏相当。
Feb, 2020
知识蒸馏是一种强大的模型压缩技术,该论文通过在域偏移下对权重平均技术的应用,桥接了知识蒸馏和域泛化的研究领域,并提出了一种简化的权重平均策略,称为加权平均知识蒸馏(WAKD)方法。
Sep, 2023
探讨了深度学习模型集合如何提高测试准确率,以及如何使用知识蒸馏将集合的优越性能提取到单个模型中。并在此基础上,提出了一种新的理论,解释了在数据具有 “多视图” 结构的情况下,各自独立训练的神经网络集合确实可以明显提高测试准确率,而这种优越的效果也可以通过训练单个模型来匹配集合输出来证明,结果揭示了在深度学习中,集合模型以及 “黑暗知识” 是如何作用于知识蒸馏中的。最后,还证明了自身蒸馏也可以看作是隐式地组合集合模型和知识蒸馏以提高测试准确率。
Dec, 2020
本文介绍了一种相对简单易用的基于在线蒸馏的神经网络训练优化方法,该方法使得我们能够在使用大规模数据集时提升模型精度并提高训练速度,同时在成本较低的情况下显著提高模型的预测可复现性。
Apr, 2018
本研究提出了一种集成知识蒸馏方法,可以从不同的教师网络中提取知识,并将其蒸馏成一个紧凑的学生模型,以获得更好的分类准确性和模型泛化性能。实验结果表明,这种集成方法可以显著提高模型的分类准确性和泛化性能,特别是在数据量有限的情况下。
Sep, 2019
本文探讨了一种主要用于训练深度神经网络的知识蒸馏方法,其使用未标记的数据集作为输入。该方法提出了一种基于 “去偏” 方法的小网络共同训练框架,不需要超参数并且能在普遍学术数据集上展示出明显的改进效果。
Oct, 2022