DCKD 是一种深度集体知识蒸馏的模型压缩方法,旨在通过丰富的信息让学生模型从老师模型和其他学生模型中获取知识,本文探讨了如何在训练过程中提高类别之间的相关性,实验结果表明该方法在 ImageNet 和 CIFAR-100 数据集上取得了最先进的性能表现。
Apr, 2023
本篇研究探讨了如何通过知识蒸馏技术,减少重新训练模型所需时间和计算成本,实验结果表明,在保证准确率的前提下,通过蒸馏前一次迭代的模型来优化后续的模型,是一种可行的对模型训练耗时和费用成本的优化方法。
Mar, 2023
在大规模预训练模型时代,知识蒸馏在保持性能的同时,将计算重的教师模型的智慧转移到轻量高效的学生模型中起到了重要作用。然而,传统的知识蒸馏假设经常对教师模型进行推理,这与成本高昂且往往是专有的大规模模型的现实越来越不符。针对这一问题,本文提出了面向少教师推理知识蒸馏(FTI KD)的方法,旨在减少对教师模型推理的依赖。本文观察到,当前的知识蒸馏技术和最先进的数据增强策略在这种受限环境下效果不佳。我们从强调通过对比学习的教育原则中汲取灵感,提出了比较式知识蒸馏(CKD),它鼓励学生模型理解教师模型对样本解释的微妙差异,并为学生提供额外的学习信号,而无需进行额外的教师调用。此外,我们将 CKD 原理扩展到样本组,从有限的教师调用中实现更高效的学习。在各种实验设置下的实证评估表明,CKD 始终优于最先进的数据增强和知识蒸馏技术。
Nov, 2023
应用动量知识蒸馏(MKD)来加强在线连续学习(OCL)方法,提高现有成果的准确度,将 MKD 视为 OCL 的核心组成部分。
Sep, 2023
本文提出基于动态学习的知识凝聚蒸馏方法 (KCD),通过期望最大化 (EM) 框架从教师的知识向学生转移紧凑的知识集,以有效增强学生模型的性能和蒸馏效率。
Jul, 2022
本研究探讨了知识蒸馏的三个不同层次 —— 宇宙,领域以及实例,发现这三个因素在知识蒸馏中起着重要作用,并在大量实证研究基础上,诊断了某些知识蒸馏应用失败的情况。
Feb, 2020
本文提出一种多模型和多级别知识蒸馏策略,通过直接利用之前的模型快照和辅助蒸馏等方式,在保留旧类知识的同时提升整体性能,有效解决了旧类性能下降的问题。
Apr, 2019
使用连续优化设计的新的知识蒸馏方法 Continuation-KD 能够更好地解决现有方法的问题,取得自然语言理解和计算机视觉任务中最优性能。
Dec, 2022
本论文提出了基于深度神经网络的一种新型增量学习方法,该方法基于知识蒸馏并采用一种规范的方式来有效地维护旧模型的表示,以适应新任务,克服了数据访问受限导致的灾难性遗忘问题,并在标准数据集上实现了显著的准确性改进。
Apr, 2022
本研究提出了一种名为 Residual Knowledge Distillation (RKD) 的知识蒸馏方法,通过引入辅助器来进一步提炼知识,从而解决现有方法由于学习容量间的巨大差距而导致的性能下降问题,并在 CIFAR-100 和 ImageNet 等流行分类数据集上取得优异的成果,超过了现有方法的最新水平。