语义校准的跨层蒸馏

AAAIDec, 2020

Cross-Layer Distillation with Semantic Calibration

Defang Chen, Jian-Ping Mei, Yuan Zhang, Can Wang, Yan Feng...

TL;DR本文提出了 Semantic Calibration for cross-layer Knowledge Distillation (SemCKD) 方法，使用 Attention 机制自动分配适当的目标层，对学生模型进行知识蒸馏，以提高泛化能力。

Abstract

knowledge distillation is a technique to enhance the generalization ability of a student model by exploiting outputs from a teacher model. Recently, feature-map based variants explore knowledge transfer between manually assigned →

knowledge distillation teacher-student pairs cross-layer supervision semantic calibration attention mechanism

发现论文，激发创造

I2CKD：用于语义分割的课内和课间知识蒸馏

这篇论文提出了一种针对图像语义分割的新型知识蒸馏方法，称为 Intra- and Inter-Class Knowledge Distillation（I2CKD）。该方法的重点是捕捉和转移教师（笨重模型）和学生（紧凑模型）的中间层之间的知识。为了进行知识提取，我们利用特征图生成了类原型。为了促进知识传递，我们采用三元损失来最小化教师和学生原型之间的类内方差，最大化类间方差。因此，I2CKD 能够使学生更好地模拟教师每个类的特征表示，从而提高紧凑网络的分割性能。使用各种教师 - 学生网络对 Cityscapes、Pascal VOC 和 CamVid 三个分割数据集进行广泛实验，证明了所提方法的有效性。

Mar, 2024

基于跨模型半监督学习的道路检测的知识蒸馏

知识蒸馏和半监督学习方法相结合的半监督学习知识蒸馏（SSLKD）方法在道路分割应用中表现出显著的学生模型性能提升，超过传统半监督学习方法的效果。

Feb, 2024

让学生决策的知识蒸馏层

通过引入可学习的 KD 层和模板学习方法，我们提出一种新的知识蒸馏技术，实现了对学生模型在中间层中进行特征变换的显式控制，并在多个分类基准测试中验证了其有效性。

Sep, 2023

ALP-KD: 基于注意力的层映射知识蒸馏

研究知识蒸馏在神经网络中的应用。提出了一种基于注意力机制的组合技术，通过将教师网络和学生网络的信息进行融合，并且考虑每层的重要性，在中间层进行蒸馏。实验表明，该技术能够优于其他现有的技术。

Dec, 2020

通道级知识蒸馏用于密集预测

利用 KL 散度和频道 - wise 蒸馏进行语义分割，以更小的计算成本，优于目前所有已知的空间蒸馏方法，可视为有效的知识提取方法。

Nov, 2020

基于稠密交叉层互相蒸馏的知识转移

在这篇论文中，我们提出了一种改进的双向知识迁移方法 Dense Cross-layer Mutual-distillation (DCM)，它采用了协作训练师生网络的方法，引入了辅助分类器和密集的双向知识蒸馏操作，在各种知识迁移任务中都表现出比相关方法更卓越的性能。

Aug, 2020

跨图像关系知识蒸馏用于语义分割

本文提出了一种跨图像关系知识蒸馏方法，通过结构化像素之间和区域之间的关系来提高学生模型的分割性能。在 Cityscapes，CamVid 和 Pascal VOC 数据集上的实验结果表明，该方法比现有的蒸馏方法效果更好。

Apr, 2022

大型语言模型的多阶段协作知识蒸馏

我们提出了一种多阶段协同知识蒸馏方法，用于稀缺标记数据的半监督序列预测任务，通过从提示的大型语言模型中蒸馏出的学生模型，在特定任务上能够更好地泛化，且在两个句法分析任务上表现出了优势。

Nov, 2023

置信度感知的多教师知识蒸馏

该研究提出了一种自适应分配逐样本可靠度的方法，以每个教师的预测可信度来稳定知识转移过程，并结合中间层来提高学生成绩，在不同的教师 - 学生架构下，优于所有其他现有方法。

Dec, 2021

走向语义图像分割中的可比较知识蒸馏

知识蒸馏可解决语义分割中的大型模型和慢速推理问题。研究中鉴定了 14 篇发表于近 4 年的 25 种蒸馏损失项。通过对 2022 年两篇论文的比较，揭示了超参数选择不当导致学生模型性能极端差异的问题。为了提高该领域的未来研究可比性，建立了三个数据集和两种学生模型的坚实基线，并提供了大量有关超参数调整的信息。在 ADE20K 数据集上，发现只有两种技术能与我们简单的基线相竞争。

Sep, 2023