匹配引导蒸馏
本文提出了一种新的知识蒸馏方法 Masked Generative Distillation (MGD),通过引导学生的特征恢复,使用简单的掩码方式强制学生生成教师的完整特征,应用于图像分类、目标检测等各种任务中均表现良好。
May, 2022
基于图知识的蒸馏方法结合多级特征对齐策略和注意力引导机制,利用谱嵌入的技术将学生模型的特征空间与教师网络的关系和结构复杂性相融合,通过全局视角理解和利用特征集之间的动态关系,从而更准确地模仿教师模型的复杂结构性依赖关系,实验证明该方法在 CIFAR-100、MS-COCO 和 Pascal VOC 数据集上的效果优于以往的特征蒸馏方法,证明其有效性和适用性。
May, 2024
本论文提出了一种名为 DiffKD 的新型知识蒸馏方法,其基于扩散模型显式去噪和匹配特征,以更好地实现精简干净特征和教师特征的蒸馏。在图像分类、对象检测和语义分割任务中,DiffKD 在各种特征类型上均取得了最先进的性能。
May, 2023
本文提出了一种基于掩码生成特征的渐进蒸馏方法,用于知识图谱完成任务,显著降低了预训练模型的复杂性。通过对预训练模型进行预蒸馏以获取高质量的教师模型,然后压缩预训练模型网络获取多级学生模型,通过渐进蒸馏实现了从教师到学生的高效知识转移。实验结果表明,在预蒸馏阶段,模型超过了现有最先进方法,在渐进蒸馏阶段,模型在显著减少模型参数的同时保持一定水平的性能。具体而言,相较于基线,低级别学生模型的模型参数减少了 56.7%。
Jan, 2024
本文提出一种利用基于注意力的元网络来实现特征蒸馏的方法,该方法在不手动选择链接的情况下有效地控制了所有可能的特征对的蒸馏强度,从而提供了更好的模型压缩和迁移学习任务的性能。
Feb, 2021
研究如何应用知识蒸馏策略到目标检测中,同时提出了一种适用于同质和异质教师 - 学生的有效框架。通过提出一种新的语义引导特征模仿技术,以及引入对比蒸馏来有效地捕捉不同区域的信息编码关系,我们的方法在多个检测基准上持续优于现有的检测 KD 技术。
Aug, 2021
通过引入新颖的 “引导燃烧” 阶段的教师 - 学生蒸馏模型以及评估不同的实例分割架构、骨干网络和预训练策略,我们改进了蒸馏方法,并利用未标记数据在引导燃烧阶段中进行了指导,从而显著提高了先前最先进的结果。
Aug, 2023
该论文提出前景和全局蒸馏技术(FGD),将知识蒸馏方法成功地应用于目标检测任务,通过前景蒸馏和全局蒸馏对学生网络进行训练,实现了对教师网络的知识迁移,取得了显著的 mAP 改进。
Nov, 2021
本文提出一种基于知识蒸馏的对话模型训练框架,通过分组多任务学习、多视角特征蒸馏和双向蒸馏等策略,找到多数据集共性知识以提高模型泛化性能。实验结果表明该框架可以有效地提高模型的泛化性能,而不影响训练效率。
Feb, 2021
利用双重掩蔽知识蒸馏(DMKD)框架来捕捉空间重要性和通道相关信息以实现全面的掩蔽特征重构,通过自适应加权策略融合重构特征进行有效的特征蒸馏,在目标检测任务中与其他最先进的蒸馏方法相比,学生网络分别在 RetinaNet 和级联 Mask R-CNN 作为教师网络时取得了 4.1% 和 4.3% 的性能提升。
Sep, 2023