近期师生学习研究综述

Apr, 2023

A Survey on Recent Teacher-student Learning Studies

Minghong Gao

TL;DR知识蒸馏是一种将深度神经网络的知识转移到更小更快的神经网络中的方法，近期变体包括教学助理蒸馏、课程蒸馏、遮罩蒸馏和解耦蒸馏等，致力于通过引入额外的组件或改变学习过程来提高知识蒸馏的性能。

Abstract

knowledge distillation is a method of transferring the knowledge from a complex deep neural network (DNN) to a smaller and faster DNN, while preserving its accuracy. Recent variants of →

knowledge distillation deep neural network teaching assistant distillation curriculum distillation mask distillation

发现论文，激发创造

知识蒸馏：综述

该论文从知识分类、训练方案、教师 - 学生架构、蒸馏算法、性能比较和应用等方面全面调查了知识蒸馏。并简要回顾了知识蒸馏中的挑战，并探讨了未来的研究方向。

Jun, 2020

知识蒸馏对迁移学习的影响

在本研究中，我们提出了一种将知识蒸馏应用于迁移学习的机器学习架构，称为 TL + KD，并对它与传统 TL 的图像分类效果进行了量化和定性比较。结果表明，在微调过程中，使用较大的教师网络提供指导和知识可以改善学生网络以实现更好的验证性能，同时研究了不同场景下的性能表现。

Oct, 2022

知識蒸餾中的遺失

深度神经网络通过知识蒸馏的模型压缩技术能够有效地在大型和小型模型之间实现信息转移，本研究通过实验探究了蒸馏过程对于信息损失的影响，并提出了一种优化配置方法。

Nov, 2023

学生大型语言模型是否能和老师一样表现出色？

深度学习模型、知识蒸馏、软标签、温度缩放和模型性能在知识蒸馏中的关键决定因素及其潜力。

Oct, 2023

相似性保持知识蒸馏

本文提出了新型的知识蒸馏损失函数，其通过保留教师神经网络中相似输入的激活模式特征，指导学生神经网络的训练，使其在保留各自的表征空间中，能够准确地保持输入的相似度。实验结果表明了该方法的潜力。

Jul, 2019

合作式知识蒸馏：一种学生无关的方法

协作蒸馏（cooperative distillation）是一种新型的知识蒸馏方法，通过学生模型发现性能缺陷并寻找教师模型来产生反事实实例，提供了一种有效的方式传递知识，用于不同架构、算法及特征空间的学习者之间。该方法不仅在多个数据集上优于基线模型如迁移学习、自监督学习和多种知识蒸馏算法，还可以用于前述技术无法应用的情景。

Feb, 2024

深度学习中的知识蒸馏及其应用

通过使用知识蒸馏技术，从大模型 (教师模型) 中提取信息，训练小模型 (学生模型) 可以解决将大型深度学习模型部署在移动设备和嵌入式设备上的问题。本文提出了一种基于蒸馏度量的比较不同知识蒸馏算法性能的新指标，并通过对知识蒸馏技术应用于深度学习模型进行调查，得出了一些有趣的结论。

Jul, 2020

通过知识选择改进预训练语言模型的知识蒸馏

本文提出了一种基于演员 - 评论家方法的知识蒸馏框架，旨在从教师模型中选择适当的知识来训练学生模型，实验结果表明该方法在 GLUE 数据集上优于常规基线模型。

Feb, 2023

理解和改善知识蒸馏

本研究探讨了知识蒸馏的三个不同层次 —— 宇宙，领域以及实例，发现这三个因素在知识蒸馏中起着重要作用，并在大量实证研究基础上，诊断了某些知识蒸馏应用失败的情况。

Feb, 2020

教育馏析：让学生模型在学校中学习

本文将动态增量学习引入到知识蒸馏中，提出了一种教育蒸馏的蒸馏策略，通过将学生模型从完整的学生模型分割为低级模型，结合设计的教学参考层，逐渐提升学生模型的年级，并从更多的教师模型中进行学习和蒸馏，使得学生模型的性能逐渐从低级到高级逐阶段提高。教育蒸馏策略结合蒸馏算法在公共数据集 CIFAR100、Caltech256 和 Food-101 数据集上比单一蒸馏算法取得了更优的结果。

Nov, 2023