关系知识蒸馏

CVPRApr, 2019

Relational Knowledge Distillation

Wonpyo Park, Dongju Kim, Yan Lu, Minsu Cho

TL;DR该论文提出了关系知识蒸馏方法（RKD），用于将数据示例之间的相互关系转移给学生模型，进而提高其在度量学习等任务中的性能，尤其是在标准基准数据集上取得了超越其老师的表现。

Abstract

knowledge distillation aims at transferring knowledge acquired in one model (a teacher) to another model (a student) that is typically smaller. Previous approaches can be expressed as a form of training the student to mimic output activations of individual data examples represented by

knowledge distillation relational knowledge distillation metric learning distance-wise distillation angle-wise distillation

发现论文，激发创造

残差知识蒸馏

本研究提出了一种名为 Residual Knowledge Distillation (RKD) 的知识蒸馏方法，通过引入辅助器来进一步提炼知识，从而解决现有方法由于学习容量间的巨大差距而导致的性能下降问题，并在 CIFAR-100 和 ImageNet 等流行分类数据集上取得优异的成果，超过了现有方法的最新水平。

Feb, 2020

理解和改善知识蒸馏

本研究探讨了知识蒸馏的三个不同层次 —— 宇宙，领域以及实例，发现这三个因素在知识蒸馏中起着重要作用，并在大量实证研究基础上，诊断了某些知识蒸馏应用失败的情况。

Feb, 2020

基于图形的深度几何知识蒸馏

本文探讨了相对知识蒸馏涉及到潜在空间中的几何，引入一种基于图的方案，有效地从大型神经网络导出知识并传递到小型网络中，提高了性能表现和精度。

Nov, 2019

知识蒸馏对迁移学习的影响

在本研究中，我们提出了一种将知识蒸馏应用于迁移学习的机器学习架构，称为 TL + KD，并对它与传统 TL 的图像分类效果进行了量化和定性比较。结果表明，在微调过程中，使用较大的教师网络提供指导和知识可以改善学生网络以实现更好的验证性能，同时研究了不同场景下的性能表现。

Oct, 2022

使用相关距离和网络修剪强化的鲁棒性知识蒸馏

我们提出了一种利用关联距离和网络修剪的强化稳健知识蒸馏（R2KD）方法，能够有效结合数据增强以提高模型的性能。在各种数据集上进行了广泛的实验，包括 CIFAR-100、FGVR、TinyImagenet 和 ImageNet，这些实验证明了我们的方法优于当前最先进的方法。

Nov, 2023

准备教材：利用更好的监督改进知识蒸馏

本研究提出了两种新颖的方法，知识调整（KA）和动态温度蒸馏（DTD），用于惩罚错误监督并改善学生模型，实验表明该方法在各种评测数据集上，以及与其他基于知识蒸馏的方法相结合时，都能获得鼓舞人心的表现。

Nov, 2019

合作式知识蒸馏：一种学生无关的方法

协作蒸馏（cooperative distillation）是一种新型的知识蒸馏方法，通过学生模型发现性能缺陷并寻找教师模型来产生反事实实例，提供了一种有效的方式传递知识，用于不同架构、算法及特征空间的学习者之间。该方法不仅在多个数据集上优于基线模型如迁移学习、自监督学习和多种知识蒸馏算法，还可以用于前述技术无法应用的情景。

Feb, 2024

集群感知半监督学习：可证明学习聚类的关系知识蒸馏

关于关系性知识蒸馏的理论解释和在半监督分类问题中的应用，本文通过将关系性知识蒸馏转化为基于教师模型的谱聚类，并量化聚类误差来证明其有效性，并通过示例复杂度界限和群集感知的半监督学习框架进一步展示了其高标记效率。此外，通过将数据增强一致性正则化与群集感知框架统一，发现关系性知识蒸馏通过谱聚类提供了 “全局” 视角，而一致性正则化则聚焦于 “局部” 视角的扩展。

Jul, 2023

比较性知识蒸馏

在大规模预训练模型时代，知识蒸馏在保持性能的同时，将计算重的教师模型的智慧转移到轻量高效的学生模型中起到了重要作用。然而，传统的知识蒸馏假设经常对教师模型进行推理，这与成本高昂且往往是专有的大规模模型的现实越来越不符。针对这一问题，本文提出了面向少教师推理知识蒸馏（FTI KD）的方法，旨在减少对教师模型推理的依赖。本文观察到，当前的知识蒸馏技术和最先进的数据增强策略在这种受限环境下效果不佳。我们从强调通过对比学习的教育原则中汲取灵感，提出了比较式知识蒸馏（CKD），它鼓励学生模型理解教师模型对样本解释的微妙差异，并为学生提供额外的学习信号，而无需进行额外的教师调用。此外，我们将 CKD 原理扩展到样本组，从有限的教师调用中实现更高效的学习。在各种实验设置下的实证评估表明，CKD 始终优于最先进的数据增强和知识蒸馏技术。

Nov, 2023

通过知识选择改进预训练语言模型的知识蒸馏

本文提出了一种基于演员 - 评论家方法的知识蒸馏框架，旨在从教师模型中选择适当的知识来训练学生模型，实验结果表明该方法在 GLUE 数据集上优于常规基线模型。

Feb, 2023