元知识蒸馏
本研究提出了用元学习结合知识蒸馏的方法(MetaDistil),可以在固定教师网络期间更好地向学生网络转移知识。在多个实验基准上,MetaDistil 可以比传统的知识蒸馏算法产生更显著的改进,并且对不同的学生容量和超参数的选择不太敏感,有助于在不同的任务和模型上使用知识蒸馏。
Jun, 2021
利用领域间的可转移知识,我们提出了一种元知识蒸馏 (Meta-KD) 框架,将初始的深度预训练模型压缩为体积更小的单域学生模型,并在多个 NLP 任务上进行了实验验证。
Dec, 2020
本文提出了自适应多教师知识蒸馏与元学习,以指导学生从量身定制的集成教师中获得适当的知识。通过元权重网络的辅助,将输出层和中间层中多样但兼容的教师知识联合利用,以增强学生的表现。在多个基准数据集上进行的广泛实验验证了本方法的有效性和灵活性。
Jun, 2023
本研究提出了两种新颖的方法,知识调整(KA)和动态温度蒸馏(DTD),用于惩罚错误监督并改善学生模型,实验表明该方法在各种评测数据集上,以及与其他基于知识蒸馏的方法相结合时,都能获得鼓舞人心的表现。
Nov, 2019
本文介绍了一种名为 Annealing-KD 的改进型知识蒸馏方法,通过渐进式地提供教师模型提供的丰富信息来训练更小的学生模型,从而使得知识蒸馏方法在训练力度较大的学生模型时更有效。作者在不同的任务上进行了实验验证,包括图像分类和自然语言推理等。
Apr, 2021
提出了一种利用 Mixup 数据扩充技术的数据不可知蒸馏框架 MixKD,大幅度降低了一些实践性问题的影响,提升了大规模语言模型的泛化能力,实现了比标准 KD 培训更好的性能表现,能用于低资源平台上的应用。
Nov, 2020
在大规模预训练模型时代,知识蒸馏在保持性能的同时,将计算重的教师模型的智慧转移到轻量高效的学生模型中起到了重要作用。然而,传统的知识蒸馏假设经常对教师模型进行推理,这与成本高昂且往往是专有的大规模模型的现实越来越不符。针对这一问题,本文提出了面向少教师推理知识蒸馏(FTI KD)的方法,旨在减少对教师模型推理的依赖。本文观察到,当前的知识蒸馏技术和最先进的数据增强策略在这种受限环境下效果不佳。我们从强调通过对比学习的教育原则中汲取灵感,提出了比较式知识蒸馏(CKD),它鼓励学生模型理解教师模型对样本解释的微妙差异,并为学生提供额外的学习信号,而无需进行额外的教师调用。此外,我们将 CKD 原理扩展到样本组,从有限的教师调用中实现更高效的学习。在各种实验设置下的实证评估表明,CKD 始终优于最先进的数据增强和知识蒸馏技术。
Nov, 2023
该研究提出了一种自适应分配逐样本可靠度的方法,以每个教师的预测可信度来稳定知识转移过程,并结合中间层来提高学生成绩,在不同的教师 - 学生架构下,优于所有其他现有方法。
Dec, 2021
我们提出了基于多教师多层知识蒸馏学习框架的自适应学习方法,该方法通过将每个教师与潜在表示相关联,自适应地学习实例级教师重要性权重,从而获取集成的高级知识,并通过多组提示策略从多个教师处汇集中间级知识。实验表明,该方法确保学生比强竞争者取得了更好的性能。
Mar, 2021
在本研究中,我们提出了一种将知识蒸馏应用于迁移学习的机器学习架构,称为 TL + KD,并对它与传统 TL 的图像分类效果进行了量化和定性比较。结果表明,在微调过程中,使用较大的教师网络提供指导和知识可以改善学生网络以实现更好的验证性能,同时研究了不同场景下的性能表现。
Oct, 2022