本文提出了自适应多教师知识蒸馏与元学习,以指导学生从量身定制的集成教师中获得适当的知识。通过元权重网络的辅助,将输出层和中间层中多样但兼容的教师知识联合利用,以增强学生的表现。在多个基准数据集上进行的广泛实验验证了本方法的有效性和灵活性。
Jun, 2023
该研究提出了一种自适应分配逐样本可靠度的方法,以每个教师的预测可信度来稳定知识转移过程,并结合中间层来提高学生成绩,在不同的教师 - 学生架构下,优于所有其他现有方法。
Dec, 2021
本研究提出了用元学习结合知识蒸馏的方法(MetaDistil),可以在固定教师网络期间更好地向学生网络转移知识。在多个实验基准上,MetaDistil 可以比传统的知识蒸馏算法产生更显著的改进,并且对不同的学生容量和超参数的选择不太敏感,有助于在不同的任务和模型上使用知识蒸馏。
Jun, 2021
本文提出一种多模型和多级别知识蒸馏策略,通过直接利用之前的模型快照和辅助蒸馏等方式,在保留旧类知识的同时提升整体性能,有效解决了旧类性能下降的问题。
Apr, 2019
在本研究中,我们提出了一种将知识蒸馏应用于迁移学习的机器学习架构,称为 TL + KD,并对它与传统 TL 的图像分类效果进行了量化和定性比较。结果表明,在微调过程中,使用较大的教师网络提供指导和知识可以改善学生网络以实现更好的验证性能,同时研究了不同场景下的性能表现。
Oct, 2022
本文提出了一种基于多任务学习的知识蒸馏方法,用于训练轻量级的预训练模型,该方法适用于不同的教师模型体系结构,并且相较于传统上基于 LSTM 的方法,具有更好的语言表达能力和更快的推理速度。
Nov, 2019
我们提出了一种新颖的多教师知识蒸馏(MTKD)框架,专门用于图像超分辨率,通过结合和增强多个教师模型的输出来指导紧凑的学生网络的学习过程,并通过在空间和频率域中观察差异来优化训练过程,从而在超分辨率性能上实现了明显的改善。
Apr, 2024
本研究探讨了知识蒸馏的三个不同层次 —— 宇宙,领域以及实例,发现这三个因素在知识蒸馏中起着重要作用,并在大量实证研究基础上,诊断了某些知识蒸馏应用失败的情况。
Feb, 2020
本研究提出了一种基于交互式教学策略的 IA KD 框架,旨在通过教师与学生网络之间的交互,提高知识蒸馏的效率,实现高性能的图像分类任务,进而推动知识蒸馏技术的发展。
Jul, 2020
本文提出基于动态学习的知识凝聚蒸馏方法 (KCD),通过期望最大化 (EM) 框架从教师的知识向学生转移紧凑的知识集,以有效增强学生模型的性能和蒸馏效率。
Jul, 2022