FEED: 特征级集成的知识蒸馏

Sep, 2019

FEED: Feature-level Ensemble for Knowledge Distillation

SeongUk Park, Nojun Kwak

TL;DRFEED 是一种有效的知识蒸馏（knowledge distillation）方法，旨在通过特征映射级别的集成学习，将多个教师网络的知识传递给学生网络，提高其泛化能力，同时在测试时不引入额外的参数或计算。

Abstract

knowledge distillation (KD) aims to transfer knowledge in a teacher-student framework, by providing the predictions of the teacher network to the student network in the training stage to help the student network generalize better. It can use either a teacher with high capacity or {an}

knowledge distillation teacher-student framework ensemble knowledge feature-map-based distillation training algorithm

发现论文，激发创造

知识蒸馏下的 CTR 预测集成

本论文提出一种基于知识蒸馏（KD）的模型训练策略，通过将教师模型学到的知识传输给学生模型，简化深度神经网络（DNN）学生模型并实现了显著的精度提高，使用多个教师模型进行训练进一步提高了学生模型的准确性。包括教师门控以及蒸馏损失提前停止等创新方法在内的多个实验表明了基于知识蒸馏的训练策略的有效性。

Nov, 2020

统一而有效的集成知识蒸馏

本文提出了一种有效的集成知识蒸馏方法，该方法能够从多个教师模型学习未标记数据的知识，并据此训练单个学生模型。研究表明，通过考虑不同教师之间的预测差异以及样本难度，可以进一步提高蒸馏的效果。

Apr, 2022

利用特征映射进行知识蒸馏的图像分类

本文提出了一种名为 KDFM（含有特征映射的知识蒸馏）的方法，通过学习教师网络的功能映射来提高知识蒸馏的有效性，并在实验中得出使用 4 层 CNN 模仿 DenseNet-40 和使用 MobileNet 模仿 DenseNet-100，对于 CIFAR-100 数据集，学生网络与教师模型相比准确率损失小于 1％，并且学生网络的推理速度是教师模型的 2-6 倍，而 MobileNet 的模型大小小于 DenseNet-100 的一半。

Dec, 2018

让学生决策的知识蒸馏层

通过引入可学习的 KD 层和模板学习方法，我们提出一种新的知识蒸馏技术，实现了对学生模型在中间层中进行特征变换的显式控制，并在多个分类基准测试中验证了其有效性。

Sep, 2023

集成知识蒸馏：学习更强大和高效的网络

本研究提出了一种集成知识蒸馏方法，可以从不同的教师网络中提取知识，并将其蒸馏成一个紧凑的学生模型，以获得更好的分类准确性和模型泛化性能。实验结果表明，这种集成方法可以显著提高模型的分类准确性和泛化性能，特别是在数据量有限的情况下。

Sep, 2019

信息流建模的异质知识蒸馏

本文提出了一种新的知识蒸馏方法，通过建模教师模型各层之间的信息流，训练学生模型来模拟信息流。该方法通过适当的监督方案解决了训练过程中不同阶段的监管问题，并设计和训练了一个适当的辅助教师模型，作为一种代理模型，能够 “解释” 教师的工作方式给学生。实验证明该方法对于四个图像数据集和多种不同的评估设置均有效。

May, 2020

提升知识蒸馏与教师解释

我们提出了一种名为知识解释蒸馏（KED）的框架，通过引入超特征解释教师，允许学生不仅从教师的预测中学习，还从教师的解释中学习，以及使用卷积神经网络降低复杂性、隐藏表示蒸馏方法扩充和使用嵌套数据集来处理有限的训练数据，实验证明，KED 学生可以显著优于类似复杂度的 KD 学生。

Oct, 2023

在线知识蒸馏的同行协作学习

该论文提出了一种名为 “Peer Collaborative Learning” 的在线知识蒸馏方法，该方法能够将在线集成和网络协作融入一个统一的框架中，并在 CIFAR-10，CIFAR-100 和 ImageNet 等数据集上得到了验证及优于其他方法的效果。

Jun, 2020

基于响应、特征和关系的知识蒸馏分类

这篇论文提供了一份全面的知识蒸馏调查，包括知识类别、蒸馏方案和算法，以及一些性能比较的实证研究。

Jun, 2023

基于图的知识探索：通道关系图的多层特征蒸馏

基于图知识的蒸馏方法结合多级特征对齐策略和注意力引导机制，利用谱嵌入的技术将学生模型的特征空间与教师网络的关系和结构复杂性相融合，通过全局视角理解和利用特征集之间的动态关系，从而更准确地模仿教师模型的复杂结构性依赖关系，实验证明该方法在 CIFAR-100、MS-COCO 和 Pascal VOC 数据集上的效果优于以往的特征蒸馏方法，证明其有效性和适用性。

May, 2024