知识蒸馏对迁移学习的影响

Oct, 2022

On effects of Knowledge Distillation on Transfer Learning

Sushil Thapa

TL;DR在本研究中，我们提出了一种将知识蒸馏应用于迁移学习的机器学习架构，称为 TL + KD，并对它与传统 TL 的图像分类效果进行了量化和定性比较。结果表明，在微调过程中，使用较大的教师网络提供指导和知识可以改善学生网络以实现更好的验证性能，同时研究了不同场景下的性能表现。

Abstract

knowledge distillation is a popular machine learning technique that aims to transfer knowledge from a large 'teacher' network to a smaller 'student' network and improve the student's performance by training it to

knowledge distillation machine learning transfer learning neural networks image classification

发现论文，激发创造

通过知识选择改进预训练语言模型的知识蒸馏

本文提出了一种基于演员 - 评论家方法的知识蒸馏框架，旨在从教师模型中选择适当的知识来训练学生模型，实验结果表明该方法在 GLUE 数据集上优于常规基线模型。

Feb, 2023

近期师生学习研究综述

知识蒸馏是一种将深度神经网络的知识转移到更小更快的神经网络中的方法，近期变体包括教学助理蒸馏、课程蒸馏、遮罩蒸馏和解耦蒸馏等，致力于通过引入额外的组件或改变学习过程来提高知识蒸馏的性能。

Apr, 2023

理解和改善知识蒸馏

本研究探讨了知识蒸馏的三个不同层次 —— 宇宙，领域以及实例，发现这三个因素在知识蒸馏中起着重要作用，并在大量实证研究基础上，诊断了某些知识蒸馏应用失败的情况。

Feb, 2020

相似性保持知识蒸馏

本文提出了新型的知识蒸馏损失函数，其通过保留教师神经网络中相似输入的激活模式特征，指导学生神经网络的训练，使其在保留各自的表征空间中，能够准确地保持输入的相似度。实验结果表明了该方法的潜力。

Jul, 2019

知識蒸餾中的遺失

深度神经网络通过知识蒸馏的模型压缩技术能够有效地在大型和小型模型之间实现信息转移，本研究通过实验探究了蒸馏过程对于信息损失的影响，并提出了一种优化配置方法。

Nov, 2023

准备教材：利用更好的监督改进知识蒸馏

本研究提出了两种新颖的方法，知识调整（KA）和动态温度蒸馏（DTD），用于惩罚错误监督并改善学生模型，实验表明该方法在各种评测数据集上，以及与其他基于知识蒸馏的方法相结合时，都能获得鼓舞人心的表现。

Nov, 2019

利用神经网络中的反向传播知识改进知识蒸馏

该论文提出了一种新的知识蒸馏方法，通过在教师模型与学生模型差异较大的地方提取知识，在生成新的辅助样本的过程中改善学生模型的性能，从而使教师模型与学生模型更加匹配。这种方法在自然语言处理和计算机视觉等领域得到了良好的实验结果。

Jan, 2023

知识蒸馏真的有效么？

研究表明，尽管知识蒸馏有助于学生网络提高推理能力，但通常情况下并不能完全符合教师模型的预测分布，而这往往是由于优化困难所导致的。此外，数据集的细节也影响着知识蒸馏的效果，更符合教师的结果不一定会带来更好的推理能力。

Jun, 2021

BERT 学会教学：元学习的知识蒸馏

本研究提出了用元学习结合知识蒸馏的方法（MetaDistil），可以在固定教师网络期间更好地向学生网络转移知识。在多个实验基准上，MetaDistil 可以比传统的知识蒸馏算法产生更显著的改进，并且对不同的学生容量和超参数的选择不太敏感，有助于在不同的任务和模型上使用知识蒸馏。

Jun, 2021

宽神经网络中的知识蒸馏：风险界限、数据效率和有误导的教师

通过使用教师网络的软输出作为向导进行学生网络的训练，知识蒸馏是模型压缩和知识转移的成功方法之一。本文通过分析一种宽神经网络的知识蒸馏，提出了一种称为数据效率的任务难度度量标准，并证明了在教师完美的情况下，教师软标签的高比例可以很有益处，并且在不完美的教师情况下，硬标签可以修正教师的错误预测，这解释了混合硬标签和软标签的实践。

Oct, 2020