知识蒸馏的不变一致性

Jul, 2024

Invariant Consistency for Knowledge Distillation

Nikolaos Giakoumoglou, Tania Stathaki

TL;DR知识蒸馏技术中，我们引入了不变一致性蒸馏法（ICD），该方法结合了对比学习和明确的不变性惩罚，以确保学生模型的表示与教师一致，并在CIFAR-100数据集上证明其优于传统知识蒸馏技术和13种最先进方法，在一些情况下，学生模型的准确性甚至超过教师模型。

Abstract

knowledge distillation (KD) involves transferring the knowledge from one neural network to another, often from a larger, well-trained model (teacher) to a smaller, more efficient model (student). Traditional KD m

发现论文，激发创造

对比表示蒸馏

通过对比学习的方式训练学生网络来实现更好的知识迁移，相比知识蒸馏等传统方法在单模型压缩、集成蒸馏和跨模态迁移等多种任务中表现更优，甚至在与知识蒸馏相结合时可以超越教师网络，这一方法在许多知识迁移任务中达到了最新的最佳表现。

Oct, 2019

Wasserstein对比表示蒸馏

本文提出了一种融合Wasserstein距离和对比学习的知识蒸馏方法WCoRD，可以在压缩模型和跨模态迁移等任务上超越现有的方法。

Dec, 2020

尊重知识蒸馏中的转移差距

该研究论文提出了一种新的逆概率加权蒸馏 (IPWD) 方法，用于解决知识蒸馏时两个领域之间数据分布不同的问题，该方法通过对样本的倾向得分估计进行加权，以弥补非独立同分布的数据中低频样本的不足，有效提高了知识蒸馏的准确度。

Oct, 2022

利用神经网络中的反向传播知识改进知识蒸馏

该论文提出了一种新的知识蒸馏方法，通过在教师模型与学生模型差异较大的地方提取知识，在生成新的辅助样本的过程中改善学生模型的性能，从而使教师模型与学生模型更加匹配。这种方法在自然语言处理和计算机视觉等领域得到了良好的实验结果。

Jan, 2023

通过规范化特征范数和方向提高知识蒸馏

提出了一种基于大范数特征和类均值对齐的知识蒸馏方法NDKD，该方法在ImageNet和CIFAR100数据集上取得了最好的分类精度。

May, 2023

使用相关距离和网络修剪强化的鲁棒性知识蒸馏

我们提出了一种利用关联距离和网络修剪的强化稳健知识蒸馏（R2KD）方法，能够有效结合数据增强以提高模型的性能。在各种数据集上进行了广泛的实验，包括CIFAR-100、FGVR、TinyImagenet和ImageNet，这些实验证明了我们的方法优于当前最先进的方法。

Nov, 2023

关系表示蒸馏

知识蒸馏是从大型训练模型向更小、更高效的学生模型转移知识的有效方法，我们引入了关系表示蒸馏（RRD），该方法利用配对相似性来探索和强化教师模型和学生模型之间的关系，通过放宽的对比损失方法，改善了学生模型的鲁棒性和性能，且在 CIFAR-100 数据集上表现优于传统的知识蒸馏技术和其他 13 种先进方法，在其他数据集上也成功地进行了知识转移。

Jul, 2024

统一蒸馏中神经网络知识传递的协调

本研究关注知识蒸馏中的知识传递问题，提出通过统一的知识蒸馏框架整合不同知识源，解决现有方法的局限。论文的关键见解在于将中间层特征聚合为综合表示，并利用这一表示预测分布参数，从而确保知识传递的全面性与一致性。实验结果表明，该方法有效提升了知识蒸馏的效果，具有显著的潜在影响。

Sep, 2024

基于相关匹配的高效鲁棒知识蒸馏方法

本文旨在解决知识蒸馏中学生模型性能提升的边际收益递减问题，提出了一种新的相关匹配知识蒸馏方法（CMKD），该方法不仅使学生模型获得教师模型的概率值，还学习类之间的相对排名。实验表明，CMKD可以在CIFAR-100和ImageNet上持续实现最先进的性能，并能很好地适应多种教师架构及其他知识蒸馏方法。

Oct, 2024

通过双重增强提取不变表示

本研究解决了知识蒸馏中模型表示一致性不足的问题，并提出了一种双重增强策略，以促进教师模型和学生模型中不变特征的学习。这一新颖的方法确保学习到的表示在更广泛的数据变化和变换下保持稳定，在CIFAR-100数据集上的实验结果表明，该策略在同型架构知识蒸馏中表现出色。

Oct, 2024