基于响应、特征和关系的知识蒸馏分类

Jun, 2023

基于响应、特征和关系的知识蒸馏分类

Categories of Response-Based, Feature-Based, and Relation-Based Knowledge Distillation

Chuanguang Yang, Xinqiang Yu, Zhulin An, Yongjun Xu

TL;DR这篇论文提供了一份全面的知识蒸馏调查，包括知识类别、蒸馏方案和算法，以及一些性能比较的实证研究。

Abstract

deep neural networks have achieved remarkable performance for artificial intelligence tasks. The success behind intelligent systems often relies on large-scale models with high computational complexity and storage costs. The →

deep neural networks knowledge distillation (kd)over-parameterized networks distillation schemes and algorithms performance comparison

发现论文，激发创造

知识蒸馏：综述

该论文从知识分类、训练方案、教师 - 学生架构、蒸馏算法、性能比较和应用等方面全面调查了知识蒸馏。并简要回顾了知识蒸馏中的挑战，并探讨了未来的研究方向。

Jun, 2020

退火知识蒸馏

本文介绍了一种名为 Annealing-KD 的改进型知识蒸馏方法，通过渐进式地提供教师模型提供的丰富信息来训练更小的学生模型，从而使得知识蒸馏方法在训练力度较大的学生模型时更有效。作者在不同的任务上进行了实验验证，包括图像分类和自然语言推理等。

Apr, 2021

知識蒸餾中的遺失

深度神经网络通过知识蒸馏的模型压缩技术能够有效地在大型和小型模型之间实现信息转移，本研究通过实验探究了蒸馏过程对于信息损失的影响，并提出了一种优化配置方法。

Nov, 2023

知识蒸馏对迁移学习的影响

在本研究中，我们提出了一种将知识蒸馏应用于迁移学习的机器学习架构，称为 TL + KD，并对它与传统 TL 的图像分类效果进行了量化和定性比较。结果表明，在微调过程中，使用较大的教师网络提供指导和知识可以改善学生网络以实现更好的验证性能，同时研究了不同场景下的性能表现。

Oct, 2022

利用神经网络中的反向传播知识改进知识蒸馏

该论文提出了一种新的知识蒸馏方法，通过在教师模型与学生模型差异较大的地方提取知识，在生成新的辅助样本的过程中改善学生模型的性能，从而使教师模型与学生模型更加匹配。这种方法在自然语言处理和计算机视觉等领域得到了良好的实验结果。

Jan, 2023

理解和改善知识蒸馏

本研究探讨了知识蒸馏的三个不同层次 —— 宇宙，领域以及实例，发现这三个因素在知识蒸馏中起着重要作用，并在大量实证研究基础上，诊断了某些知识蒸馏应用失败的情况。

Feb, 2020

深度学习中的知识蒸馏及其应用

通过使用知识蒸馏技术，从大模型 (教师模型) 中提取信息，训练小模型 (学生模型) 可以解决将大型深度学习模型部署在移动设备和嵌入式设备上的问题。本文提出了一种基于蒸馏度量的比较不同知识蒸馏算法性能的新指标，并通过对知识蒸馏技术应用于深度学习模型进行调查，得出了一些有趣的结论。

Jul, 2020

再生神经网络

本文研究知识迁移领域的另一种方法：Born-Again Networks (BANs)，将学生的参数与老师的相同，来达到比老师更好的性能表现。在计算机视觉和语言建模任务中， BANs 表现出甚至比老师高出许多的性能得分，并且在各种规模的学生中，将知识从 DenseNets 到 ResNets 和反向传输，都显示出明显的优势

May, 2018

预训练模型知识蒸馏的实用洞见

通过对知识蒸馏 (KD) 技术的综合比较研究，本文填补了目前研究中的空白，揭示了在协作与联邦学习框架中利用预训练模型中的知识蒸馏技术的最佳超参数设置，通过降低通信回合和加速训练过程，提高模型性能的实用框架。

Feb, 2024

软目标定向传输集成的无数据知识蒸馏

本研究提出了一个基于多元正态分布的数据自由知识蒸馏方法，该方法从过度参数化神经网络中模拟中间特征空间并利用软目标标签生成伪样本以作为转换集。使用这些合成的转移集训练多个学生网络，表现出与使用原始训练集和其他无数据知识蒸馏方法训练的网络相当的竞争性能。

Apr, 2021