基于注意机制的知识蒸馏模型压缩的代表性教师关键

Jun, 2022

基于注意机制的知识蒸馏模型压缩的代表性教师关键

Representative Teacher Keys for Knowledge Distillation Model Compression Based on Attention Mechanism for Image Classification

PDF

Jun-Teng Yang, Sheng-Che Kao, Scott C.-H. Huang

TL;DR本文提出了一种基于注意力机制的知识蒸馏方法，名为代表性教师关键 (point)（RTK），可以实现从大型模型中提取特征信息并训练小型模型，在保证特征相似性的同时过滤掉无用信息，在几个常用的数据集上进行实验，取得了显著的分类准确率提升。

Abstract

With the improvement of ai chips (e.g., GPU, TPU, and NPU) and the fast development of the internet of things (IoT), some robust deep neural netw

ai chips internet of things deep neural networks model compression knowledge distillation

发现论文，激发创造

残差知识蒸馏

本研究提出了一种名为 Residual Knowledge Distillation (RKD) 的知识蒸馏方法，通过引入辅助器来进一步提炼知识，从而解决现有方法由于学习容量间的巨大差距而导致的性能下降问题，并在 CIFAR-100 和 ImageNet 等流行分类数据集上取得优异的成果，超过了现有方法的最新水平。

Feb, 2020

基于特征方差的鲁棒知识蒸馏：抵抗带后门的教师模型

RobustKD 是基于特征差异的鲁棒知识蒸馏方法，通过压缩模型并减少学生模型和教师模型之间的特征差异，实现了学生模型的性能和后门缓解的双重目标。

Jun, 2024

比较性知识蒸馏

在大规模预训练模型时代，知识蒸馏在保持性能的同时，将计算重的教师模型的智慧转移到轻量高效的学生模型中起到了重要作用。然而，传统的知识蒸馏假设经常对教师模型进行推理，这与成本高昂且往往是专有的大规模模型的现实越来越不符。针对这一问题，本文提出了面向少教师推理知识蒸馏（FTI KD）的方法，旨在减少对教师模型推理的依赖。本文观察到，当前的知识蒸馏技术和最先进的数据增强策略在这种受限环境下效果不佳。我们从强调通过对比学习的教育原则中汲取灵感，提出了比较式知识蒸馏（CKD），它鼓励学生模型理解教师模型对样本解释的微妙差异，并为学生提供额外的学习信号，而无需进行额外的教师调用。此外，我们将 CKD 原理扩展到样本组，从有限的教师调用中实现更高效的学习。在各种实验设置下的实证评估表明，CKD 始终优于最先进的数据增强和知识蒸馏技术。

Nov, 2023

SFT-KD-Recon：磁共振图像重建中以学生为导向的知识蒸馏教师的学习

深度级联体系结构、知识蒸馏、MRI 加速、SFT-KD-Recon 和重建性能。

Apr, 2023

MTKD：图像超分辨率的多教师知识蒸馏

我们提出了一种新颖的多教师知识蒸馏（MTKD）框架，专门用于图像超分辨率，通过结合和增强多个教师模型的输出来指导紧凑的学生网络的学习过程，并通过在空间和频率域中观察差异来优化训练过程，从而在超分辨率性能上实现了明显的改善。

Apr, 2024

准备教材：利用更好的监督改进知识蒸馏

本研究提出了两种新颖的方法，知识调整（KA）和动态温度蒸馏（DTD），用于惩罚错误监督并改善学生模型，实验表明该方法在各种评测数据集上，以及与其他基于知识蒸馏的方法相结合时，都能获得鼓舞人心的表现。

Nov, 2019

知识蒸馏和师生学习在视觉智能中的应用：评述与新观点

本文讨论了知识蒸馏和 S-T 学习，提供了对知识蒸馏的解释以及该方法的最新进展、技术细节和视觉应用状况的全面调查，并分析了现有方法的潜力和挑战，展望了知识蒸馏和 S-T 学习的未来方向。

Apr, 2020

基于多头注意力网络的图卷积知识蒸馏

本文提出了一种新颖的知识蒸馏方法，通过多头注意力网络从大型教师网络中提取基于数据集的知识，并进行多任务学习，大大提高了小型学生网络的性能。

Jul, 2019

知識蒸餾中的遺失

深度神经网络通过知识蒸馏的模型压缩技术能够有效地在大型和小型模型之间实现信息转移，本研究通过实验探究了蒸馏过程对于信息损失的影响，并提出了一种优化配置方法。

Nov, 2023

基于排名模仿和预测引导特征仿效的目标检测知识蒸馏

本研究针对目标检测中知识蒸馏问题，通过分析教师和学生模型行为差异提出了基于 Rank Mimicking 和 Prediction-guided Feature Imitation 的知识蒸馏方法，有效地提高了学生模型的精确度和加速度。

Dec, 2021