本文提出了一种新的嵌入蒸馏框架,使词嵌入的维度显著降低但不影响准确性,并介绍了使用多个教师模型训练高效的学生模型的新型蒸馏集成方法。通过实验验证,在七个文本分类数据集上,该方法在大多数情况下均表现出比教师模型更好的性能,对词嵌入的变换进行了深入分析,并提出了使用神经模型进行融合的未来研究方向。
May, 2019
本文挑战了使用强大的teacher model教授弱student model的共识,详细阐述了KD和label smoothing regularization之间的关系,提出了Teacher-free Knowledge Distillation(Tf-KD)框架,通过自学和手动设计正则化分布,实现了与正常KD相媲美的性能。
Sep, 2019
本文提出了通过知识蒸馏从内部表示来压缩BERT这样的大型模型,并阐述了两种从内部表示中提取知识的方法和不同算法的实验。结论是,与仅使用软标签蒸馏相比,从内部表示来蒸馏是更强大的方法。
Oct, 2019
使用简单的知识蒸馏技术可以显著缩小教师模型与学生模型之间的性能差距,通过使用预先训练的教师模型的判别分类器进行学生推断,并通过特征对齐训练学生编码器来实现与教师相同的性能。添加新的投影仪使学生编码器与教师分类器匹配,从而将这种技术应用于各种教师和学生架构下达到良好的压缩率与状态的最佳结果。
Mar, 2022
本文介绍了一种名为 DIST 的方法,它可以更好地从一个更强的教师模型中进行知识蒸馏,通过保留教师和学生之间的预测关系,提出了基于相关损失的方法,从而实现了最先进的性能。
May, 2022
通过引入可学习的KD层和模板学习方法,我们提出一种新的知识蒸馏技术,实现了对学生模型在中间层中进行特征变换的显式控制,并在多个分类基准测试中验证了其有效性。
Sep, 2023
我们提出了一种名为知识解释蒸馏(KED)的框架,通过引入超特征解释教师,允许学生不仅从教师的预测中学习,还从教师的解释中学习,以及使用卷积神经网络降低复杂性、隐藏表示蒸馏方法扩充和使用嵌套数据集来处理有限的训练数据,实验证明,KED学生可以显著优于类似复杂度的KD学生。
Oct, 2023
使用可压缩的嵌入模块来改进知识蒸馏方法,以提高分类性能并增强学生模型的泛化能力。
Feb, 2024
知识蒸馏是从大型训练模型向更小、更高效的学生模型转移知识的有效方法,我们引入了关系表示蒸馏(RRD),该方法利用配对相似性来探索和强化教师模型和学生模型之间的关系,通过放宽的对比损失方法,改善了学生模型的鲁棒性和性能,且在 CIFAR-100 数据集上表现优于传统的知识蒸馏技术和其他 13 种先进方法,在其他数据集上也成功地进行了知识转移。
Jul, 2024
该研究解决了知识蒸馏在二分类和少类问题中表现不佳的难题,提出了一种新颖的方法——学习嵌入线性投影(LELP),通过识别教师嵌入空间中的信息性线性子空间,并将其拆分为伪子类,来指导学生模型学习。这项工作在亚马逊评论和Sentiment140等大型NLP基准上的评估显示,LELP方法在少类任务中相比现有最先进的蒸馏算法更具竞争力且通常优于它们。
Sep, 2024