匹配引导蒸馏

ECCVAug, 2020

Matching Guided Distillation

Kaiyu Yue, Jiangfan Deng, Feng Zhou

TL;DR本文提出了匹配引导蒸馏（Matching Guided Distillation，MGD）方法，该方法是一种高效的，不需要参数的方法，旨在解决适配模块带来的问题和随机初始化或特殊转换对预训练学生进行提炼的不利影响。MGD 的关键思想是将教师信道与学生信道的匹配作为分配问题，通过三种解决方案将教师信道的数量减少到学生信道，并使用部分蒸馏损失来更新分配。整个训练采用两个优化目标之间的协调下降方法。

Abstract

feature distillation is an effective way to improve the performance for a smaller student model, which has fewer parameters and lower computation cost compared to the larger teacher model. Unfortunately, there is a common obstacle - the gap in →

feature distillation semantic feature structure matching guided distillation assignment problem parameter-free

发现论文，激发创造

掩码生成蒸馏

本文提出了一种新的知识蒸馏方法 Masked Generative Distillation (MGD)，通过引导学生的特征恢复，使用简单的掩码方式强制学生生成教师的完整特征，应用于图像分类、目标检测等各种任务中均表现良好。

May, 2022

基于图的知识探索：通道关系图的多层特征蒸馏

基于图知识的蒸馏方法结合多级特征对齐策略和注意力引导机制，利用谱嵌入的技术将学生模型的特征空间与教师网络的关系和结构复杂性相融合，通过全局视角理解和利用特征集之间的动态关系，从而更准确地模仿教师模型的复杂结构性依赖关系，实验证明该方法在 CIFAR-100、MS-COCO 和 Pascal VOC 数据集上的效果优于以往的特征蒸馏方法，证明其有效性和适用性。

May, 2024

知识扩散用于蒸馏

本论文提出了一种名为 DiffKD 的新型知识蒸馏方法，其基于扩散模型显式去噪和匹配特征，以更好地实现精简干净特征和教师特征的蒸馏。在图像分类、对象检测和语义分割任务中，DiffKD 在各种特征类型上均取得了最先进的性能。

May, 2023

基于掩码生成特征方法的逐步蒸馏用于知识图谱补全

本文提出了一种基于掩码生成特征的渐进蒸馏方法，用于知识图谱完成任务，显著降低了预训练模型的复杂性。通过对预训练模型进行预蒸馏以获取高质量的教师模型，然后压缩预训练模型网络获取多级学生模型，通过渐进蒸馏实现了从教师到学生的高效知识转移。实验结果表明，在预蒸馏阶段，模型超过了现有最先进方法，在渐进蒸馏阶段，模型在显著减少模型参数的同时保持一定水平的性能。具体而言，相较于基线，低级别学生模型的模型参数减少了 56.7%。

Jan, 2024

基于注意力特征匹配的知识蒸馏

本文提出一种利用基于注意力的元网络来实现特征蒸馏的方法，该方法在不手动选择链接的情况下有效地控制了所有可能的特征对的蒸馏强度，从而提供了更好的模型压缩和迁移学习任务的性能。

Feb, 2021

G-DetKD: 通过对比和语义引导特征模仿实现物体检测器的通用蒸馏框架

研究如何应用知识蒸馏策略到目标检测中，同时提出了一种适用于同质和异质教师 - 学生的有效框架。通过提出一种新的语义引导特征模仿技术，以及引入对比蒸馏来有效地捕捉不同区域的信息编码关系，我们的方法在多个检测基准上持续优于现有的检测 KD 技术。

Aug, 2021

半监督实例分割的引导蒸馏

通过引入新颖的 “引导燃烧” 阶段的教师 - 学生蒸馏模型以及评估不同的实例分割架构、骨干网络和预训练策略，我们改进了蒸馏方法，并利用未标记数据在引导燃烧阶段中进行了指导，从而显著提高了先前最先进的结果。

Aug, 2023

检测器的焦点和全局知识蒸馏

该论文提出前景和全局蒸馏技术（FGD），将知识蒸馏方法成功地应用于目标检测任务，通过前景蒸馏和全局蒸馏对学生网络进行训练，实现了对教师网络的知识迁移，取得了显著的 mAP 改进。

Nov, 2021

双向蒸馏的多视角特征表示在对话生成中的应用

本文提出一种基于知识蒸馏的对话模型训练框架，通过分组多任务学习、多视角特征蒸馏和双向蒸馏等策略，找到多数据集共性知识以提高模型泛化性能。实验结果表明该框架可以有效地提高模型的泛化性能，而不影响训练效率。

Feb, 2021

DMKD: 通过双重掩模增强改进基于特征的目标检测知识蒸馏

利用双重掩蔽知识蒸馏（DMKD）框架来捕捉空间重要性和通道相关信息以实现全面的掩蔽特征重构，通过自适应加权策略融合重构特征进行有效的特征蒸馏，在目标检测任务中与其他最先进的蒸馏方法相比，学生网络分别在 RetinaNet 和级联 Mask R-CNN 作为教师网络时取得了 4.1% 和 4.3% 的性能提升。

Sep, 2023