KDExplainer: 一种用于解释知识蒸馏的面向任务的注意力模型

IJCAIMay, 2021

KDExplainer: 一种用于解释知识蒸馏的面向任务的注意力模型

KDExplainer: A Task-oriented Attention Model for Explaining Knowledge Distillation

Mengqi Xue, Jie Song, Xinchao Wang, Ying Chen, Xingen Wang...

TL;DR本文介绍一种名为 KDExplainer 的新颖任务定向的注意力模型，通过从预训练的自由形式的 DNN 中提炼出知识，我们发现知识蒸馏隐含地调节不同子任务之间的知识冲突，并在不需要过多成本的情况下，将虚拟注意模块（VAM）与各种 DNN 无缝集成以提高它们在知识蒸馏下的性能，结果显示使用 VAM 的学生模型在不同的基准测试中一致优于其无 VAM 对应物。

Abstract

knowledge distillation (KD) has recently emerged as an efficacious scheme for learning compact deep neural networks (DNNs). Despite the promising results achieved, the rationale that interprets the behavior of KD

knowledge distillation deep neural networks attention model multi-task binary classification virtual attention module

发现论文，激发创造

基于多头注意力网络的图卷积知识蒸馏

本文提出了一种新颖的知识蒸馏方法，通过多头注意力网络从大型教师网络中提取基于数据集的知识，并进行多任务学习，大大提高了小型学生网络的性能。

Jul, 2019

基于类别注意力转移的知识蒸馏

提出了一种基于类别注意力传递的知识蒸馏（CAT-KD）方法，该方法不仅具有高解释性，还在多个基准测试中实现了最先进的性能，通过传输课程激活地图，从而提供了关于 CNN 的更好的理解，并改进了 CAT-KD 的解释性。

Apr, 2023

提升知识蒸馏与教师解释

我们提出了一种名为知识解释蒸馏（KED）的框架，通过引入超特征解释教师，允许学生不仅从教师的预测中学习，还从教师的解释中学习，以及使用卷积神经网络降低复杂性、隐藏表示蒸馏方法扩充和使用嵌套数据集来处理有限的训练数据，实验证明，KED 学生可以显著优于类似复杂度的 KD 学生。

Oct, 2023

基于生成模型的特征知识蒸馏用于行为识别

本研究提出了一种创新的知识蒸馏框架，利用生成模型训练轻量级学生模型，通过特征表示和基于生成模型的特征蒸馏阶段，转移基于注意力的特征语义，在视频动作识别任务中显示出显著的性能改进。

Dec, 2023

DistilDoc: 视觉内容丰富文档应用的知识蒸馏

针对视觉丰富的文档应用（如文档布局分析和文档图像分类），本文探讨了知识蒸馏（KD）。通过设计一种 KD 实验方法，我们研究了不同架构和容量的骨干模型之间的知识传递策略对教师 - 学生知识差距的影响，并发现一些方法可以始终优于监督学生训练。此外，我们设计了下游任务设置，评估了蒸馏的布局分析模型在零样本布局感知文档视觉问答上的鲁棒性，结果表明存在较大的知识差距，强调进一步探索如何高效获得更多的语义文档布局意识的必要性。

Jun, 2024

MixKD：大规模语言模型高效蒸馏

提出了一种利用 Mixup 数据扩充技术的数据不可知蒸馏框架 MixKD，大幅度降低了一些实践性问题的影响，提升了大规模语言模型的泛化能力，实现了比标准 KD 培训更好的性能表现，能用于低资源平台上的应用。

Nov, 2020

MKD：一种预训练语言模型的多任务知识蒸馏方法

本文提出了一种基于多任务学习的知识蒸馏方法，用于训练轻量级的预训练模型，该方法适用于不同的教师模型体系结构，并且相较于传统上基于 LSTM 的方法，具有更好的语言表达能力和更快的推理速度。

Nov, 2019

知识蒸馏的视觉语言模型压缩

本文提出 VL distillation，使用知识蒸馏方法将基于 transformer 的大型 VL 模型压缩成小型 VL 模型，以提高图像字幕生成和视觉问答任务中的性能。

Apr, 2021

准备教材：利用更好的监督改进知识蒸馏

本研究提出了两种新颖的方法，知识调整（KA）和动态温度蒸馏（DTD），用于惩罚错误监督并改善学生模型，实验表明该方法在各种评测数据集上，以及与其他基于知识蒸馏的方法相结合时，都能获得鼓舞人心的表现。

Nov, 2019

$V_kD:$ 使用正交投影来改进知识蒸馏

通过特征蒸馏方法，我们的研究提出了一种新的约束特征蒸馏方法，该方法可以应用于训练小型高效的深度学习模型，并在 ImageNet 数据集上获得了显著的性能提升。

Mar, 2024