Wasserstein 对比表示蒸馏

CVPRDec, 2020

Wasserstein Contrastive Representation Distillation

Liqun Chen, Dong Wang, Zhe Gan, Jingjing Liu, Ricardo Henao...

TL;DR本文提出了一种融合 Wasserstein 距离和对比学习的知识蒸馏方法 WCoRD，可以在压缩模型和跨模态迁移等任务上超越现有的方法。

Abstract

The primary goal of knowledge distillation (KD) is to encapsulate the information of a model learned from a teacher network into a student network, with the latter being more compact than the former. Existing work, e.g., using Kullback-Leibler divergence for distillation, may fail to c

knowledge distillation wcord wasserstein distance contrastive learning model compression

发现论文，激发创造

对比表示蒸馏

通过对比学习的方式训练学生网络来实现更好的知识迁移，相比知识蒸馏等传统方法在单模型压缩、集成蒸馏和跨模态迁移等多种任务中表现更优，甚至在与知识蒸馏相结合时可以超越教师网络，这一方法在许多知识迁移任务中达到了最新的最佳表现。

Oct, 2019

使用相关距离和网络修剪强化的鲁棒性知识蒸馏

我们提出了一种利用关联距离和网络修剪的强化稳健知识蒸馏（R2KD）方法，能够有效结合数据增强以提高模型的性能。在各种数据集上进行了广泛的实验，包括 CIFAR-100、FGVR、TinyImagenet 和 ImageNet，这些实验证明了我们的方法优于当前最先进的方法。

Nov, 2023

关系知识蒸馏

该论文提出了关系知识蒸馏方法（RKD），用于将数据示例之间的相互关系转移给学生模型，进而提高其在度量学习等任务中的性能，尤其是在标准基准数据集上取得了超越其老师的表现。

Apr, 2019

使用 Wasserstein 知识蒸馏提高神经主题模型

本文提出了一种知识蒸馏框架，以压缩具有大内存占用的上下文化主题模型，而不会在主题质量上造成损失，并在两个公开数据集上进行实验以证明其有效性。

Mar, 2023

比较性知识蒸馏

在大规模预训练模型时代，知识蒸馏在保持性能的同时，将计算重的教师模型的智慧转移到轻量高效的学生模型中起到了重要作用。然而，传统的知识蒸馏假设经常对教师模型进行推理，这与成本高昂且往往是专有的大规模模型的现实越来越不符。针对这一问题，本文提出了面向少教师推理知识蒸馏（FTI KD）的方法，旨在减少对教师模型推理的依赖。本文观察到，当前的知识蒸馏技术和最先进的数据增强策略在这种受限环境下效果不佳。我们从强调通过对比学习的教育原则中汲取灵感，提出了比较式知识蒸馏（CKD），它鼓励学生模型理解教师模型对样本解释的微妙差异，并为学生提供额外的学习信号，而无需进行额外的教师调用。此外，我们将 CKD 原理扩展到样本组，从有限的教师调用中实现更高效的学习。在各种实验设置下的实证评估表明，CKD 始终优于最先进的数据增强和知识蒸馏技术。

Nov, 2023

尊重知识蒸馏中的转移差距

该研究论文提出了一种新的逆概率加权蒸馏 (IPWD) 方法，用于解决知识蒸馏时两个领域之间数据分布不同的问题，该方法通过对样本的倾向得分估计进行加权，以弥补非独立同分布的数据中低频样本的不足，有效提高了知识蒸馏的准确度。

Oct, 2022

利用神经网络中的反向传播知识改进知识蒸馏

该论文提出了一种新的知识蒸馏方法，通过在教师模型与学生模型差异较大的地方提取知识，在生成新的辅助样本的过程中改善学生模型的性能，从而使教师模型与学生模型更加匹配。这种方法在自然语言处理和计算机视觉等领域得到了良好的实验结果。

Jan, 2023

知识浓缩蒸馏

本文提出基于动态学习的知识凝聚蒸馏方法 (KCD)，通过期望最大化 (EM) 框架从教师的知识向学生转移紧凑的知识集，以有效增强学生模型的性能和蒸馏效率。

Jul, 2022

对中间表示进行对比蒸馏，用于语言模型压缩

本研究提出了一种基于中间层对比蒸馏的知识蒸馏框架（CoDIR），通过区分正样本和大量负样本，使学生模型通过中间层更好地提取和压缩教师模型的知识，该方法在 GLUE 基准测试中表现优异。

Sep, 2020

知识蒸馏的视觉语言模型压缩

本文提出 VL distillation，使用知识蒸馏方法将基于 transformer 的大型 VL 模型压缩成小型 VL 模型，以提高图像字幕生成和视觉问答任务中的性能。

Apr, 2021