知识扩散用于蒸馏
该论文提出了一种新的知识蒸馏方法,通过在教师模型与学生模型差异较大的地方提取知识,在生成新的辅助样本的过程中改善学生模型的性能,从而使教师模型与学生模型更加匹配。这种方法在自然语言处理和计算机视觉等领域得到了良好的实验结果。
Jan, 2023
我们提出了一种名为知识解释蒸馏(KED)的框架,通过引入超特征解释教师,允许学生不仅从教师的预测中学习,还从教师的解释中学习,以及使用卷积神经网络降低复杂性、隐藏表示蒸馏方法扩充和使用嵌套数据集来处理有限的训练数据,实验证明,KED 学生可以显著优于类似复杂度的 KD 学生。
Oct, 2023
本文提出一种参数高效、学生友好的知识蒸馏方法 PESF-KD,通过更新相对较少的参数,实现高效、充分的知识转移,其中引入了适配器模块,将教师的输出转化为合适平滑度的软标签。实验表明,与在线蒸馏方法相比,PESF-KD 能够显著降低培训成本,同时获得有竞争力的结果。
May, 2022
本文提出了一种新颖的知识蒸馏策略 -- 继承与探索知识蒸馏框架 (IE-KD),它将学生模型分成两个部分,继承和探索。继承部分通过相似度损失将已有的知识从教师模型转移到学生模型,而探索部分通过不相似度损失鼓励学生模型学习与继承部分不同的特征表示,实验结果表明,IE-KD 能够提高学生网络的表现,达到 SOTA 水平。
Jul, 2021
在大规模预训练模型时代,知识蒸馏在保持性能的同时,将计算重的教师模型的智慧转移到轻量高效的学生模型中起到了重要作用。然而,传统的知识蒸馏假设经常对教师模型进行推理,这与成本高昂且往往是专有的大规模模型的现实越来越不符。针对这一问题,本文提出了面向少教师推理知识蒸馏(FTI KD)的方法,旨在减少对教师模型推理的依赖。本文观察到,当前的知识蒸馏技术和最先进的数据增强策略在这种受限环境下效果不佳。我们从强调通过对比学习的教育原则中汲取灵感,提出了比较式知识蒸馏(CKD),它鼓励学生模型理解教师模型对样本解释的微妙差异,并为学生提供额外的学习信号,而无需进行额外的教师调用。此外,我们将 CKD 原理扩展到样本组,从有限的教师调用中实现更高效的学习。在各种实验设置下的实证评估表明,CKD 始终优于最先进的数据增强和知识蒸馏技术。
Nov, 2023
通过引入可学习的 KD 层和模板学习方法,我们提出一种新的知识蒸馏技术,实现了对学生模型在中间层中进行特征变换的显式控制,并在多个分类基准测试中验证了其有效性。
Sep, 2023
本文提出一种基于知识蒸馏的对话模型训练框架,通过分组多任务学习、多视角特征蒸馏和双向蒸馏等策略,找到多数据集共性知识以提高模型泛化性能。实验结果表明该框架可以有效地提高模型的泛化性能,而不影响训练效率。
Feb, 2021
使用简单的知识蒸馏技术可以显著缩小教师模型与学生模型之间的性能差距,通过使用预先训练的教师模型的判别分类器进行学生推断,并通过特征对齐训练学生编码器来实现与教师相同的性能。添加新的投影仪使学生编码器与教师分类器匹配,从而将这种技术应用于各种教师和学生架构下达到良好的压缩率与状态的最佳结果。
Mar, 2022
RobustKD 是基于特征差异的鲁棒知识蒸馏方法,通过压缩模型并减少学生模型和教师模型之间的特征差异,实现了学生模型的性能和后门缓解的双重目标。
Jun, 2024