动态校正知识蒸馏

Jan, 2022

Dynamic Rectification Knowledge Distillation

Fahad Rahman Amik, Ahnaf Ismat Tasin, Silvia Ahmed, M. M. Lutfe Elahi, Nabeel Mohammed

TL;DR提出了一种名为DR-KD的简单而有效的知识蒸馏框架，通过在传统训练中动态调整目标来使学生变成自身的教师，并在蒸馏信息时进行错误更正，从而消除了笨重的教师模型的必要性，并在需要分类或对象识别的任何深度神经网络训练中均可使用，能够在不增加额外训练成本的情况下较其他知识蒸馏方法显著提高Tiny ImageNet测试准确性2.65％。

Abstract

knowledge distillation is a technique which aims to utilize dark knowledge to compress and transfer information from a vast, well-trained neural network (teacher model) to a smaller, less capable neural network (student model) with improved inference efficiency. This approach of distil

发现论文，激发创造

从搜索到精炼：珍珠遍布各处，却不见双眸

该论文提出一种基于神经网络结构搜索的知识蒸馏模型AKD，可以将老师模型的知识蒸馏到学生模型的参数和结构中。实验表明AKD方法比传统的NAS和KD方法更有效，在ImageNet分类任务和其他任务中都能取得最先进的结果。

Nov, 2019

知识蒸馏和师生学习在视觉智能中的应用：评述与新观点

本文讨论了知识蒸馏和S-T学习，提供了对知识蒸馏的解释以及该方法的最新进展、技术细节和视觉应用状况的全面调查，并分析了现有方法的潜力和挑战，展望了知识蒸馏和S-T学习的未来方向。

Apr, 2020

知识蒸馏：综述

该论文从知识分类、训练方案、教师-学生架构、蒸馏算法、性能比较和应用等方面全面调查了知识蒸馏。并简要回顾了知识蒸馏中的挑战，并探讨了未来的研究方向。

Jun, 2020

知识蒸馏与自监督相遇

本文介绍了一种新的知识蒸馏方法，使用自我监督信号作为辅助任务来提取自预训练教师模型中的丰富知识，并将其成功地传递到学生网络中，从而实现了在各种基准测试下的表现优异。

Jun, 2020

多教师助理指导的密集知识蒸馏

本文提出一种基于多个teacher assistant的密集引导知识蒸馏方法，通过逐渐减小模型大小有效地弥合teacher和student之间的巨大差距，实现了对student的更高效学习，并在CIFAR-10、CIFAR-100和ImageNet上的多个backbone架构中取得了显著的性能提升。

Sep, 2020

基于决策的黑盒模型的零-shot知识蒸馏

该研究提出一种基于决策边界的黑盒知识蒸馏方法（DB3），包括由教师决策边界构造软标签，以及生成伪样本以代表未知数据，皆不需要接触教师参数，结果表明该方法在各种基准网络和数据集上都表现出有效性。

Jun, 2021

知识蒸馏的师生架构：综述

通过教师-学生架构，本综述对多种知识蒸馏目标进行了广泛的探索和总结，包括知识压缩、知识扩展、知识适应和知识增强等方面，为行业从业人员和学术界提供有关教师-学生架构的宝贵见解和指导。

Aug, 2023

让学生决策的知识蒸馏层

通过引入可学习的KD层和模板学习方法，我们提出一种新的知识蒸馏技术，实现了对学生模型在中间层中进行特征变换的显式控制，并在多个分类基准测试中验证了其有效性。

Sep, 2023

学生大型语言模型是否能和老师一样表现出色？

深度学习模型、知识蒸馏、软标签、温度缩放和模型性能在知识蒸馏中的关键决定因素及其潜力。

Oct, 2023

提升知识蒸馏与教师解释

我们提出了一种名为知识解释蒸馏（KED）的框架，通过引入超特征解释教师，允许学生不仅从教师的预测中学习，还从教师的解释中学习，以及使用卷积神经网络降低复杂性、隐藏表示蒸馏方法扩充和使用嵌套数据集来处理有限的训练数据，实验证明，KED学生可以显著优于类似复杂度的KD学生。

Oct, 2023