跨任务知识蒸馏的投影学习

Mar, 2024

Learning to Project for Cross-Task Knowledge Distillation

Dylan Auty, Roy Miles, Benedikt Kolbeinsson, Krystian Mikolajczyk

TL;DR通过使用反向投影的简单修改，我们提出了一种针对跨任务设置的知识蒸馏方法，能够有效处理不同任务之间的教师和学生模型，在没有额外成本的情况下，在跨任务设置下相比传统投影获得了高达 1.9％的改进。此外，我们还使用反向投影进行了分析，提出了一种新的正则化损失函数，使得在 ImageNet 上的无教师蒸馏性能提升高达 8.57％，且无需额外的训练成本。

Abstract

Traditional knowledge distillation (KD) relies on a proficient teacher trained on the target task, which is not always available. In this setting, cross-task distillation can be used, enabling the use of any teac

knowledge distillation cross-task distillation inverted projection task-specific features teacher-free distillation

发现论文，激发创造

理解投影仪在知识蒸馏中的影响

在知识蒸馏过程中，我们发现即使学生和老师具有相同的特征维度，添加投影器仍然有助于提高蒸馏性能，并且投影器在体系结构中的添加甚至可以改善逻辑蒸馏。受到这些令人惊讶的发现和现有文献对知识蒸馏过程中投影器角色的不了解的启发，本文研究了被忽视的投影器的隐含作用。通过经验研究，我们发现具有投影器的学生与没有投影器的学生相比，可以在训练精度和测试精度之间获得更好的平衡，从 Centered Kernel Alignment (CKA) 的视角来看，其相似性与老师相比更好地保持，并且避免了测试阶段老师的过度自信。受到投影器积极影响的启发，我们提出了一种基于投影器集合的特征蒸馏方法以进一步提高蒸馏性能。尽管所提出的策略简单，但在基准数据集上进行的分类任务的实证结果显示了我们方法在广泛范围的师生对上具有优越的分类性能，并从 CKA 和模型校准的角度验证了学生特征的质量改进。

Oct, 2023

$V_kD:$ 使用正交投影来改进知识蒸馏

通过特征蒸馏方法，我们的研究提出了一种新的约束特征蒸馏方法，该方法可以应用于训练小型高效的深度学习模型，并在 ImageNet 数据集上获得了显著的性能提升。

Mar, 2024

比较性知识蒸馏

在大规模预训练模型时代，知识蒸馏在保持性能的同时，将计算重的教师模型的智慧转移到轻量高效的学生模型中起到了重要作用。然而，传统的知识蒸馏假设经常对教师模型进行推理，这与成本高昂且往往是专有的大规模模型的现实越来越不符。针对这一问题，本文提出了面向少教师推理知识蒸馏（FTI KD）的方法，旨在减少对教师模型推理的依赖。本文观察到，当前的知识蒸馏技术和最先进的数据增强策略在这种受限环境下效果不佳。我们从强调通过对比学习的教育原则中汲取灵感，提出了比较式知识蒸馏（CKD），它鼓励学生模型理解教师模型对样本解释的微妙差异，并为学生提供额外的学习信号，而无需进行额外的教师调用。此外，我们将 CKD 原理扩展到样本组，从有限的教师调用中实现更高效的学习。在各种实验设置下的实证评估表明，CKD 始终优于最先进的数据增强和知识蒸馏技术。

Nov, 2023

准备教材：利用更好的监督改进知识蒸馏

本研究提出了两种新颖的方法，知识调整（KA）和动态温度蒸馏（DTD），用于惩罚错误监督并改善学生模型，实验表明该方法在各种评测数据集上，以及与其他基于知识蒸馏的方法相结合时，都能获得鼓舞人心的表现。

Nov, 2019

重复使用教师分类器的知识蒸馏

使用简单的知识蒸馏技术可以显著缩小教师模型与学生模型之间的性能差距，通过使用预先训练的教师模型的判别分类器进行学生推断，并通过特征对齐训练学生编码器来实现与教师相同的性能。添加新的投影仪使学生编码器与教师分类器匹配，从而将这种技术应用于各种教师和学生架构下达到良好的压缩率与状态的最佳结果。

Mar, 2022

理解和改善知识蒸馏

本研究探讨了知识蒸馏的三个不同层次 —— 宇宙，领域以及实例，发现这三个因素在知识蒸馏中起着重要作用，并在大量实证研究基础上，诊断了某些知识蒸馏应用失败的情况。

Feb, 2020

关系知识蒸馏

该论文提出了关系知识蒸馏方法（RKD），用于将数据示例之间的相互关系转移给学生模型，进而提高其在度量学习等任务中的性能，尤其是在标准基准数据集上取得了超越其老师的表现。

Apr, 2019

MKD：一种预训练语言模型的多任务知识蒸馏方法

本文提出了一种基于多任务学习的知识蒸馏方法，用于训练轻量级的预训练模型，该方法适用于不同的教师模型体系结构，并且相较于传统上基于 LSTM 的方法，具有更好的语言表达能力和更快的推理速度。

Nov, 2019

让学生决策的知识蒸馏层

通过引入可学习的 KD 层和模板学习方法，我们提出一种新的知识蒸馏技术，实现了对学生模型在中间层中进行特征变换的显式控制，并在多个分类基准测试中验证了其有效性。

Sep, 2023

残差知识蒸馏

本研究提出了一种名为 Residual Knowledge Distillation (RKD) 的知识蒸馏方法，通过引入辅助器来进一步提炼知识，从而解决现有方法由于学习容量间的巨大差距而导致的性能下降问题，并在 CIFAR-100 和 ImageNet 等流行分类数据集上取得优异的成果，超过了现有方法的最新水平。

Feb, 2020