知识扩散用于蒸馏

May, 2023

Knowledge Diffusion for Distillation

Tao Huang, Yuan Zhang, Mingkai Zheng, Shan You, Fei Wang...

TL;DR本论文提出了一种名为 DiffKD 的新型知识蒸馏方法，其基于扩散模型显式去噪和匹配特征，以更好地实现精简干净特征和教师特征的蒸馏。在图像分类、对象检测和语义分割任务中，DiffKD 在各种特征类型上均取得了最先进的性能。

Abstract

The representation gap between teacher and student is an emerging topic in knowledge distillation (KD). To reduce the gap and improve the performance, current methods often resort to complicated training schemes, loss functions, and feature alignments, which are task-specific and featu

knowledge distillation feature distillation diffusion model denoising performance improvement

发现论文，激发创造

利用神经网络中的反向传播知识改进知识蒸馏

该论文提出了一种新的知识蒸馏方法，通过在教师模型与学生模型差异较大的地方提取知识，在生成新的辅助样本的过程中改善学生模型的性能，从而使教师模型与学生模型更加匹配。这种方法在自然语言处理和计算机视觉等领域得到了良好的实验结果。

Jan, 2023

提升知识蒸馏与教师解释

我们提出了一种名为知识解释蒸馏（KED）的框架，通过引入超特征解释教师，允许学生不仅从教师的预测中学习，还从教师的解释中学习，以及使用卷积神经网络降低复杂性、隐藏表示蒸馏方法扩充和使用嵌套数据集来处理有限的训练数据，实验证明，KED 学生可以显著优于类似复杂度的 KD 学生。

Oct, 2023

高效参数和适合学生的知识蒸馏

本文提出一种参数高效、学生友好的知识蒸馏方法 PESF-KD，通过更新相对较少的参数，实现高效、充分的知识转移，其中引入了适配器模块，将教师的输出转化为合适平滑度的软标签。实验表明，与在线蒸馏方法相比，PESF-KD 能够显著降低培训成本，同时获得有竞争力的结果。

May, 2022

重访知识蒸馏：一个继承和探索框架

本文提出了一种新颖的知识蒸馏策略 -- 继承与探索知识蒸馏框架 (IE-KD)，它将学生模型分成两个部分，继承和探索。继承部分通过相似度损失将已有的知识从教师模型转移到学生模型，而探索部分通过不相似度损失鼓励学生模型学习与继承部分不同的特征表示，实验结果表明，IE-KD 能够提高学生网络的表现，达到 SOTA 水平。

Jul, 2021

比较性知识蒸馏

在大规模预训练模型时代，知识蒸馏在保持性能的同时，将计算重的教师模型的智慧转移到轻量高效的学生模型中起到了重要作用。然而，传统的知识蒸馏假设经常对教师模型进行推理，这与成本高昂且往往是专有的大规模模型的现实越来越不符。针对这一问题，本文提出了面向少教师推理知识蒸馏（FTI KD）的方法，旨在减少对教师模型推理的依赖。本文观察到，当前的知识蒸馏技术和最先进的数据增强策略在这种受限环境下效果不佳。我们从强调通过对比学习的教育原则中汲取灵感，提出了比较式知识蒸馏（CKD），它鼓励学生模型理解教师模型对样本解释的微妙差异，并为学生提供额外的学习信号，而无需进行额外的教师调用。此外，我们将 CKD 原理扩展到样本组，从有限的教师调用中实现更高效的学习。在各种实验设置下的实证评估表明，CKD 始终优于最先进的数据增强和知识蒸馏技术。

Nov, 2023

让学生决策的知识蒸馏层

通过引入可学习的 KD 层和模板学习方法，我们提出一种新的知识蒸馏技术，实现了对学生模型在中间层中进行特征变换的显式控制，并在多个分类基准测试中验证了其有效性。

Sep, 2023

通过规范化特征范数和方向提高知识蒸馏

提出了一种基于大范数特征和类均值对齐的知识蒸馏方法 NDKD，该方法在 ImageNet 和 CIFAR100 数据集上取得了最好的分类精度。

May, 2023

双向蒸馏的多视角特征表示在对话生成中的应用

本文提出一种基于知识蒸馏的对话模型训练框架，通过分组多任务学习、多视角特征蒸馏和双向蒸馏等策略，找到多数据集共性知识以提高模型泛化性能。实验结果表明该框架可以有效地提高模型的泛化性能，而不影响训练效率。

Feb, 2021

重复使用教师分类器的知识蒸馏

使用简单的知识蒸馏技术可以显著缩小教师模型与学生模型之间的性能差距，通过使用预先训练的教师模型的判别分类器进行学生推断，并通过特征对齐训练学生编码器来实现与教师相同的性能。添加新的投影仪使学生编码器与教师分类器匹配，从而将这种技术应用于各种教师和学生架构下达到良好的压缩率与状态的最佳结果。

Mar, 2022

基于特征方差的鲁棒知识蒸馏：抵抗带后门的教师模型

RobustKD 是基于特征差异的鲁棒知识蒸馏方法，通过压缩模型并减少学生模型和教师模型之间的特征差异，实现了学生模型的性能和后门缓解的双重目标。

Jun, 2024