通过迁移学习能力来改善知识蒸馏

Apr, 2023

通过迁移学习能力来改善知识蒸馏

Improving Knowledge Distillation Via Transferring Learning Ability

Long Liu, Tong Li, Hui Cheng

TL;DR本文介绍了一种名为 SLKD 的新方法，用于解决现有知识蒸馏方法中存在的教师 - 学生方法忽视教师和学生网络学习能力差异所导致的容量差距问题。

Abstract

Existing knowledge distillation methods generally use a teacher-student approach, where the student network solely learns from a well-trained teacher. However, this approach overlooks the inherent differences in learnin

knowledge distillation teacher-student approach slkd learning abilities capacity-gap problem

发现论文，激发创造

知识蒸馏对迁移学习的影响

在本研究中，我们提出了一种将知识蒸馏应用于迁移学习的机器学习架构，称为 TL + KD，并对它与传统 TL 的图像分类效果进行了量化和定性比较。结果表明，在微调过程中，使用较大的教师网络提供指导和知识可以改善学生网络以实现更好的验证性能，同时研究了不同场景下的性能表现。

Oct, 2022

针对知识蒸馏的学生友好型教师网络学习

本文提出一种新颖的知识蒸馏方法，该方法旨在学习对学生友好的教师模型以实现知识传递，并在多个知识蒸馏技术中展示出卓越的准确性和收敛速度。

Feb, 2021

通过知识选择改进预训练语言模型的知识蒸馏

本文提出了一种基于演员 - 评论家方法的知识蒸馏框架，旨在从教师模型中选择适当的知识来训练学生模型，实验结果表明该方法在 GLUE 数据集上优于常规基线模型。

Feb, 2023

合作式知识蒸馏：一种学生无关的方法

协作蒸馏（cooperative distillation）是一种新型的知识蒸馏方法，通过学生模型发现性能缺陷并寻找教师模型来产生反事实实例，提供了一种有效的方式传递知识，用于不同架构、算法及特征空间的学习者之间。该方法不仅在多个数据集上优于基线模型如迁移学习、自监督学习和多种知识蒸馏算法，还可以用于前述技术无法应用的情景。

Feb, 2024

知识蒸馏真的有效么？

研究表明，尽管知识蒸馏有助于学生网络提高推理能力，但通常情况下并不能完全符合教师模型的预测分布，而这往往是由于优化困难所导致的。此外，数据集的细节也影响着知识蒸馏的效果，更符合教师的结果不一定会带来更好的推理能力。

Jun, 2021

知识回顾中的知识提炼

本研究在知识蒸馏中不同于先前方法，提出了跨层连接路径的重要性，通过新的重审机制设计了嵌套紧凑的框架，极大地提高了学生网络的性能，在分类、目标检测和实例分割等任务中均获得了显著的成果。

Apr, 2021

知识蒸馏的有效性

本研究评估了知识蒸馏的有效性以及它对学生和教师体系的依赖性。发现较精确的教师并不一定是好教师，且大型模型并不总是更好的教师，这导致了容器不匹配的问题，本研究表明教师的训练中止可以缓解这种效应，这些结果适用于各种数据集和模型。

Oct, 2019

学生大型语言模型是否能和老师一样表现出色？

深度学习模型、知识蒸馏、软标签、温度缩放和模型性能在知识蒸馏中的关键决定因素及其潜力。

Oct, 2023

关系知识蒸馏

该论文提出了关系知识蒸馏方法（RKD），用于将数据示例之间的相互关系转移给学生模型，进而提高其在度量学习等任务中的性能，尤其是在标准基准数据集上取得了超越其老师的表现。

Apr, 2019

一种新颖的自我知识蒸馏方法，利用孪生表示学习进行行为识别

本文提出了一种新的自知识蒸馏方法，通过孪生表示学习来最小化给定样本的两个不同视图的表示向量之间的差异，并利用软标签蒸馏和表示向量的相似性，因此能够在同一数据点的各种视图中生成更一致的预测和表示，并在各个标准数据集上验证了其显着提高精确度的效果。

Sep, 2022