FlyKD: 利用课程学习在飞行中进行图知识蒸馏
本文提供了一种基于多尺度图框架的知识蒸馏方法,通过合理利用图框架分解所提供的多尺度图知识,学生模型能够适应同构和异构图,并具有通过简单而有效的图手术缓解过度压缩问题的潜力。实验结果表明,该模型可以在保持高推理速度的同时,生成与教师模型相同甚至更好的学习精度。
Jul, 2023
本文提出了一种被称为无图知识蒸馏(GFKD)的方法,通过建模多元伯努利分布来学习知识传输的图拓扑结构,并使用梯度估计器来优化该框架,该方法适用于处理不同拓扑结构的非网格数据。经过广泛的实验,GFKD 实现了从 GNN 中蒸馏知识的最先进性能,无需训练数据。
May, 2021
提出了一种利用 Mixup 数据扩充技术的数据不可知蒸馏框架 MixKD,大幅度降低了一些实践性问题的影响,提升了大规模语言模型的泛化能力,实现了比标准 KD 培训更好的性能表现,能用于低资源平台上的应用。
Nov, 2020
本文提出了一种新的知识蒸馏方法(GKD),通过引入梯度对齐这一重要的知识源,以提高预训练语言模型的学生模型的性能和可解释性。实验结果表明,使用 GKD 比先前的知识蒸馏方法效果更好。
Nov, 2022
通过伪标签学习,将大型语言模型(LLM)的知识在低数据环境中转移给专门的模型,本研究探索了使用含噪声教师模型进行知识蒸馏的情况,并发现学生模型在知识蒸馏过程中能够生成比教师标签更准确的预测结果,表明其具有去噪噪声教师标签的内在能力,基于此发现,我们提出了使用对等建议(Peer-Advised KD)来改进标准知识蒸馏方法,实验证明,使用 50 个人工标注数据,Peer-Advised KD 的性能优于 LLM 约 5%,甚至与使用 750 个人工标注数据进行的标准监督微调相媲美。
Dec, 2023
本文提出了新的结构,在强化学习环境中构建了两个较浅的图神经网络来协作交换知识,以解决原本难以训练的深度图神经网络知识蒸馏问题,实验结果证明其优于基础图神经网络和其他传统知识蒸馏算法。
Jun, 2022
本文研究知识迁移领域的另一种方法:Born-Again Networks (BANs),将学生的参数与老师的相同, 来达到比老师更好的性能表现。在计算机视觉和语言建模任务中, BANs 表现出甚至比老师高出许多的性能得分,并且在各种规模的学生中,将知识从 DenseNets 到 ResNets 和反向传输,都显示出明显的优势
May, 2018
在大规模预训练模型时代,知识蒸馏在保持性能的同时,将计算重的教师模型的智慧转移到轻量高效的学生模型中起到了重要作用。然而,传统的知识蒸馏假设经常对教师模型进行推理,这与成本高昂且往往是专有的大规模模型的现实越来越不符。针对这一问题,本文提出了面向少教师推理知识蒸馏(FTI KD)的方法,旨在减少对教师模型推理的依赖。本文观察到,当前的知识蒸馏技术和最先进的数据增强策略在这种受限环境下效果不佳。我们从强调通过对比学习的教育原则中汲取灵感,提出了比较式知识蒸馏(CKD),它鼓励学生模型理解教师模型对样本解释的微妙差异,并为学生提供额外的学习信号,而无需进行额外的教师调用。此外,我们将 CKD 原理扩展到样本组,从有限的教师调用中实现更高效的学习。在各种实验设置下的实证评估表明,CKD 始终优于最先进的数据增强和知识蒸馏技术。
Nov, 2023
通过引入可学习的 KD 层和模板学习方法,我们提出一种新的知识蒸馏技术,实现了对学生模型在中间层中进行特征变换的显式控制,并在多个分类基准测试中验证了其有效性。
Sep, 2023
本文研究知识蒸馏的动态方法是否能根据学生模型的能力,对三个方面进行调整,包括教师模型的采用,数据选择和蒸馏目标的调整,实验结果表明,动态知识蒸馏是有前途的,并提供了关于更有效 KD 方法的未来方向的讨论。
Sep, 2021