对比表示蒸馏

Oct, 2019

Contrastive Representation Distillation

Yonglong Tian, Dilip Krishnan, Phillip Isola

TL;DR通过对比学习的方式训练学生网络来实现更好的知识迁移，相比知识蒸馏等传统方法在单模型压缩、集成蒸馏和跨模态迁移等多种任务中表现更优，甚至在与知识蒸馏相结合时可以超越教师网络，这一方法在许多知识迁移任务中达到了最新的最佳表现。

Abstract

Often we wish to transfer representational knowledge from one neural network to another. Examples include distilling a large network into a smaller one, transferring knowledge from one sensory modality to a second, or ensembling a collection of models into a single estimator. Knowledge

发现论文，激发创造

变分信息蒸馏用于知识迁移

本论文提出了一种信息理论框架用于知识转移，将知识转移视为最大化教师和学生网络之间的互信息，将该方法应用于不同架构的网络间的知识转移，证明了其性能远超现有方法。

Apr, 2019

相似性保持知识蒸馏

本文提出了新型的知识蒸馏损失函数，其通过保留教师神经网络中相似输入的激活模式特征，指导学生神经网络的训练，使其在保留各自的表征空间中，能够准确地保持输入的相似度。实验结果表明了该方法的潜力。

Jul, 2019

从内部表示进行知识蒸馏

本文提出了通过知识蒸馏从内部表示来压缩BERT这样的大型模型，并阐述了两种从内部表示中提取知识的方法和不同算法的实验。结论是，与仅使用软标签蒸馏相比，从内部表示来蒸馏是更强大的方法。

Oct, 2019

知识表示：用于知识蒸馏的高效、稀疏的先验知识表示

本文提出了一种以先验知识为主要建模对象的知识表示框架，并设计了一种稀疏重编码惩罚，以约束学生网络的学习，从而在知识蒸馏过程中避免过度正则化和更快地收敛。实验表明，该框架即使目标网络的表示能力不如期望，仍然实现了最先进的性能表现，并且灵活易于与基于后验知识的其他知识蒸馏方法结合使用。

Nov, 2019

Wasserstein对比表示蒸馏

本文提出了一种融合Wasserstein距离和对比学习的知识蒸馏方法WCoRD，可以在压缩模型和跨模态迁移等任务上超越现有的方法。

Dec, 2020

互补关系对比蒸馏

本研究提出一种基于对比关系的知识蒸馏方法CRCD，通过建立标定点并计算学生和教师关系的差异，有效地将结构性知识从教师模型转移到学生模型中，从而同时蒸馏出样本表示和样本之间的关系。实验证明了该方法的有效性。

Mar, 2021

知识蒸馏对迁移学习的影响

在本研究中，我们提出了一种将知识蒸馏应用于迁移学习的机器学习架构，称为TL + KD，并对它与传统TL的图像分类效果进行了量化和定性比较。结果表明，在微调过程中，使用较大的教师网络提供指导和知识可以改善学生网络以实现更好的验证性能，同时研究了不同场景下的性能表现。

Oct, 2022

让学生决策的知识蒸馏层

通过引入可学习的KD层和模板学习方法，我们提出一种新的知识蒸馏技术，实现了对学生模型在中间层中进行特征变换的显式控制，并在多个分类基准测试中验证了其有效性。

Sep, 2023

关于蒸馏的令人惊讶的疗效作为替代预训练小模型的研究

我们提出了一种针对小模型的训练方法，不需要吸收预训练的成本，却能获得相同的性能，并且通过知识蒸馏与对比学习的连接，能够有效地降低计算成本，提高训练速度，同时通过数据增强进一步改善性能。

Apr, 2024

关系表示蒸馏

知识蒸馏是从大型训练模型向更小、更高效的学生模型转移知识的有效方法，我们引入了关系表示蒸馏（RRD），该方法利用配对相似性来探索和强化教师模型和学生模型之间的关系，通过放宽的对比损失方法，改善了学生模型的鲁棒性和性能，且在 CIFAR-100 数据集上表现优于传统的知识蒸馏技术和其他 13 种先进方法，在其他数据集上也成功地进行了知识转移。

Jul, 2024