知识回顾中的知识提炼

CVPRApr, 2021

Distilling Knowledge via Knowledge Review

Pengguang Chen, Shu Liu, Hengshuang Zhao, Jiaya Jia

TL;DR本研究在知识蒸馏中不同于先前方法，提出了跨层连接路径的重要性，通过新的重审机制设计了嵌套紧凑的框架，极大地提高了学生网络的性能，在分类、目标检测和实例分割等任务中均获得了显著的成果。

Abstract

knowledge distillation transfers knowledge from the teacher network to the student one, with the goal of greatly improving the performance of the student network. Previous methods mostly focus on proposing feature transformation and loss functions between the same level's features to i

knowledge distillation cross-level connection paths student network performance improvement classification object detection

发现论文，激发创造

[转载] 通过知识回顾进行知识蒸馏

本论文旨在复现 CVPR '21 论文《通过知识审查来提取知识》的实验结果并分析其知识蒸馏方法的健壮性。通过引入残差学习框架并设计新的多层教师神经网络的融合模块来训练单层学生神经网络，以及后引入的跨级连接方法，该方法取得了显著的性能提升。本文在通过消融实验和新实验验证了其有效性，并与原论文报告的测试精度进行了一致的验证。

May, 2022

近期师生学习研究综述

知识蒸馏是一种将深度神经网络的知识转移到更小更快的神经网络中的方法，近期变体包括教学助理蒸馏、课程蒸馏、遮罩蒸馏和解耦蒸馏等，致力于通过引入额外的组件或改变学习过程来提高知识蒸馏的性能。

Apr, 2023

通过知识选择改进预训练语言模型的知识蒸馏

本文提出了一种基于演员 - 评论家方法的知识蒸馏框架，旨在从教师模型中选择适当的知识来训练学生模型，实验结果表明该方法在 GLUE 数据集上优于常规基线模型。

Feb, 2023

针对知识蒸馏的学生友好型教师网络学习

本文提出一种新颖的知识蒸馏方法，该方法旨在学习对学生友好的教师模型以实现知识传递，并在多个知识蒸馏技术中展示出卓越的准确性和收敛速度。

Feb, 2021

知识蒸馏对迁移学习的影响

在本研究中，我们提出了一种将知识蒸馏应用于迁移学习的机器学习架构，称为 TL + KD，并对它与传统 TL 的图像分类效果进行了量化和定性比较。结果表明，在微调过程中，使用较大的教师网络提供指导和知识可以改善学生网络以实现更好的验证性能，同时研究了不同场景下的性能表现。

Oct, 2022

知识蒸馏的有效性

本研究评估了知识蒸馏的有效性以及它对学生和教师体系的依赖性。发现较精确的教师并不一定是好教师，且大型模型并不总是更好的教师，这导致了容器不匹配的问题，本研究表明教师的训练中止可以缓解这种效应，这些结果适用于各种数据集和模型。

Oct, 2019

关系知识蒸馏

该论文提出了关系知识蒸馏方法（RKD），用于将数据示例之间的相互关系转移给学生模型，进而提高其在度量学习等任务中的性能，尤其是在标准基准数据集上取得了超越其老师的表现。

Apr, 2019

知识蒸馏真的有效么？

研究表明，尽管知识蒸馏有助于学生网络提高推理能力，但通常情况下并不能完全符合教师模型的预测分布，而这往往是由于优化困难所导致的。此外，数据集的细节也影响着知识蒸馏的效果，更符合教师的结果不一定会带来更好的推理能力。

Jun, 2021

从人脸分类到对齐和验证的知识转移模型蒸馏

本文通过在人脸识别领域，将知识蒸馏模型迁移到非分类任务中，提出了一种新的模型蒸馏方法；实验证明此方法可使蒸馏后的模型在人脸对齐和人脸验证任务中达到与原模型相当的性能，并在一些具体的压缩比下超越原模型。

Sep, 2017

合作式知识蒸馏：一种学生无关的方法

协作蒸馏（cooperative distillation）是一种新型的知识蒸馏方法，通过学生模型发现性能缺陷并寻找教师模型来产生反事实实例，提供了一种有效的方式传递知识，用于不同架构、算法及特征空间的学习者之间。该方法不仅在多个数据集上优于基线模型如迁移学习、自监督学习和多种知识蒸馏算法，还可以用于前述技术无法应用的情景。

Feb, 2024