变分信息蒸馏用于知识迁移

CVPRApr, 2019

Variational Information Distillation for Knowledge Transfer

Sungsoo Ahn, Shell Xu Hu, Andreas Damianou, Neil D. Lawrence, Zhenwen Dai

TL;DR本论文提出了一种信息理论框架用于知识转移，将知识转移视为最大化教师和学生网络之间的互信息，将该方法应用于不同架构的网络间的知识转移，证明了其性能远超现有方法。

Abstract

Transferring knowledge from a teacher neural network pretrained on the same or a similar task to a student neural network can significantly improve the performance of the student →

knowledge transfer neural network information-theoretic framework convolutional neural network multi-layer perceptron

发现论文，激发创造

知识蒸馏对迁移学习的影响

在本研究中，我们提出了一种将知识蒸馏应用于迁移学习的机器学习架构，称为 TL + KD，并对它与传统 TL 的图像分类效果进行了量化和定性比较。结果表明，在微调过程中，使用较大的教师网络提供指导和知识可以改善学生网络以实现更好的验证性能，同时研究了不同场景下的性能表现。

Oct, 2022

相似性保持知识蒸馏

本文提出了新型的知识蒸馏损失函数，其通过保留教师神经网络中相似输入的激活模式特征，指导学生神经网络的训练，使其在保留各自的表征空间中，能够准确地保持输入的相似度。实验结果表明了该方法的潜力。

Jul, 2019

理想共同分类器假设下的知识蒸馏

IJCKD 提供了一个理论框架，通过一个基于领域自适应理论的数学分析来更好地理解现有的知识蒸馏方法，明确了教师网络与学生网络之间的知识转移机制，并且可以有效地将知识传递给各种应用领域。

Apr, 2023

知识蒸馏与自监督相遇

本文介绍了一种新的知识蒸馏方法，使用自我监督信号作为辅助任务来提取自预训练教师模型中的丰富知识，并将其成功地传递到学生网络中，从而实现了在各种基准测试下的表现优异。

Jun, 2020

知識蒸餾中的遺失

深度神经网络通过知识蒸馏的模型压缩技术能够有效地在大型和小型模型之间实现信息转移，本研究通过实验探究了蒸馏过程对于信息损失的影响，并提出了一种优化配置方法。

Nov, 2023

对比表示蒸馏

通过对比学习的方式训练学生网络来实现更好的知识迁移，相比知识蒸馏等传统方法在单模型压缩、集成蒸馏和跨模态迁移等多种任务中表现更优，甚至在与知识蒸馏相结合时可以超越教师网络，这一方法在许多知识迁移任务中达到了最新的最佳表现。

Oct, 2019

针对知识蒸馏的学生友好型教师网络学习

本文提出一种新颖的知识蒸馏方法，该方法旨在学习对学生友好的教师模型以实现知识传递，并在多个知识蒸馏技术中展示出卓越的准确性和收敛速度。

Feb, 2021

强化多教师选择的知识蒸馏

本文研究了一种改进模型压缩方法，通过强化学习动态调整知识蒸馏中教师模型的权重，从而提高了学生模型性能，适用于自然语言处理任务。

Dec, 2020

宽神经网络中的知识蒸馏：风险界限、数据效率和有误导的教师

通过使用教师网络的软输出作为向导进行学生网络的训练，知识蒸馏是模型压缩和知识转移的成功方法之一。本文通过分析一种宽神经网络的知识蒸馏，提出了一种称为数据效率的任务难度度量标准，并证明了在教师完美的情况下，教师软标签的高比例可以很有益处，并且在不完美的教师情况下，硬标签可以修正教师的错误预测，这解释了混合硬标签和软标签的实践。

Oct, 2020

目标感知 Transformer 的知识蒸馏

本篇论文提出了一种新型的知识蒸馏方法，采用一对所有的空间匹配，提高小型神经网络的性能，不同于以往的一对一的空间匹配，从而导致所有的空间位置通常都具有不同的语义信息。该方法在各种计算机视觉基准测试中都超过了最先进的方法。

May, 2022