基于多头注意力网络的图卷积知识蒸馏

Jul, 2019

Graph-based Knowledge Distillation by Multi-head Attention Network

Seunghyun Lee, Byung Cheol Song

TL;DR本文提出了一种新颖的知识蒸馏方法，通过多头注意力网络从大型教师网络中提取基于数据集的知识，并进行多任务学习，大大提高了小型学生网络的性能。

Abstract

knowledge distillation (KD) is a technique to derive optimal performance from a small student network (SN) by distilling knowledge of a large tea

发现论文，激发创造

本文提出一种基于属性图的全局知识蒸馏方法，通过自适应地聚合相关样本的单独知识，将它们与关系型邻域样本的关联知识整合成统一的图嵌入，并以对比的方式训练学生网络来蒸馏全局知识。

Aug, 2021

提出了一种基于类别注意力传递的知识蒸馏（CAT-KD）方法，该方法不仅具有高解释性，还在多个基准测试中实现了最先进的性能，通过传输课程激活地图，从而提供了关于 CNN 的更好的理解，并改进了 CAT-KD 的解释性。

Apr, 2023

我们提出了基于多教师多层知识蒸馏学习框架的自适应学习方法，该方法通过将每个教师与潜在表示相关联，自适应地学习实例级教师重要性权重，从而获取集成的高级知识，并通过多组提示策略从多个教师处汇集中间级知识。实验表明，该方法确保学生比强竞争者取得了更好的性能。

Mar, 2021

本文提出了一种被称为无图知识蒸馏（GFKD）的方法，通过建模多元伯努利分布来学习知识传输的图拓扑结构，并使用梯度估计器来优化该框架，该方法适用于处理不同拓扑结构的非网格数据。经过广泛的实验，GFKD 实现了从 GNN 中蒸馏知识的最先进性能，无需训练数据。

May, 2021

通过注意力机制对 GNN 模型进行知识蒸馏，实现了对大规模图数据的高压缩比，平均精度提升 1.79%，压缩比达到 32.3 倍，相较于现有技术达到了更小的精度损失。

Oct, 2023

本文介绍了一种名为 Annealing-KD 的改进型知识蒸馏方法，通过渐进式地提供教师模型提供的丰富信息来训练更小的学生模型，从而使得知识蒸馏方法在训练力度较大的学生模型时更有效。作者在不同的任务上进行了实验验证，包括图像分类和自然语言推理等。

Apr, 2021

本文研究神经机器翻译中知识蒸馏的技术，发现知识来源于教师的 top-1 预测，进一步提出一种名为 TIE-KD 的方法用于增强知识蒸馏，包含了层次排序损失和迭代蒸馏等措施，实验证明 TIE-KD 优于基准模型，具有更高的潜力和泛化性能。

May, 2023

深度神经网络通过知识蒸馏的模型压缩技术能够有效地在大型和小型模型之间实现信息转移，本研究通过实验探究了蒸馏过程对于信息损失的影响，并提出了一种优化配置方法。

Nov, 2023

使用时空图神经网络 (ST-GNN) 对实时交通数据建模，通过知识蒸馏 (KD) 提高 ST-GNN 在实时交通预测中的执行效率，使用剪枝算法和联合优化实现网络架构搜索和精调，评估结果表明，即使保留网络参数的仅 3％，我们的方法仍能使学生网络接近教师网络的准确性。

Jan, 2024

该论文提出了一种新的知识蒸馏方法，通过在教师模型与学生模型差异较大的地方提取知识，在生成新的辅助样本的过程中改善学生模型的性能，从而使教师模型与学生模型更加匹配。这种方法在自然语言处理和计算机视觉等领域得到了良好的实验结果。

Jan, 2023