图神经网络的在线对抗蒸馏

Dec, 2021

Online Adversarial Distillation for Graph Neural Networks

Can Wang, Zhe Wang, Defang Chen, Sheng Zhou, Yan Feng...

TL;DR本文提出一种在线对抗蒸馏方法，通过以团体知识来作为动态虚拟教师和有效地捕获图神经网络中的结构变化来同时训练一组图神经网络。在这个方法中，我们通过传输反映图拓扑和节点属性信息的本地知识和反映类预测的全局知识来增强彼此的性能，以提高蒸馏性能。

Abstract

knowledge distillation has recently become a popular technique to improve the model generalization ability on convolutional neural networks. However, its effect on →

knowledge distillation convolutional neural networks graph neural networks online distillation adversarial distillation

发现论文，激发创造

图神经网络的零数据对抗知识蒸馏

本篇论文提出了一种基于生成对抗网络的无需真实数据的对抗知识蒸馏框架，用于图结构数据的知识蒸馏，可以有效压缩图模型并在图分类任务中取得更好的性能。

May, 2022

通过对抗知识蒸馏压缩深度图神经网络

本文提出了一种名为 GraphAKD 的新型对抗知识蒸馏框架，其中包括一个可训练的判别器和一个生成器，用于自适应地检测和降低深度图神经网络中的知识差异，并将其成功地应用于节点级和图级分类任务中，改善了学生 GNN 的性能。

May, 2022

基于图神经网络的在线跨层知识蒸馏与深度监督

本文提出一种在线知识蒸馏框架 ——Alignahead++，它通过一种交替的训练过程，将学生模型的结构和特征信息转移给另一个同时训练的学生模型的前一层，同时在每个中间层添加辅助分类器以避免过度平滑问题。实验结果表明，在不需要预训练模型的监督情况下，通过增加学生数量，我们的协作训练框架可以稳定提高学生模型的性能。

Oct, 2022

从图卷积网络中提炼知识

本文提出了一种新颖的知识蒸馏方法，主要应用于非网格结构的数据，如图形结构数据。该方法采用了一种本地结构维护模块，从教师网络和学生网络中提取局部结构信息作为分布，最小化这些分布之间的距离，实现了拥有拓扑感知能力的知识传递，得到了一个更加轻量级但性能优异的学生网络。本文同时还将该方法应用于动态图模型，获得了在两个不同数据集上 GCN 模型的最新知识蒸馏性能。

Mar, 2020

特征图级别在线对抗知识蒸馏

本文提出了一种在线知识蒸馏方法，在对抗训练框架下同时传输分类概率和特征图的知识，并使用判别器区分不同网络的特征图分布进行训练，比传统的直接对齐方法（如 L1）更适用于在线蒸馏，在多个网络之间引入循环学习方案，实验表明该方法的性能显著提高，特别是在训练一对小型和大型网络的情况下。

Feb, 2020

在线多样化同行中的知识蒸馏

本文提出了一种双层蒸馏网络框架 OKDDip，其中包括多个辅助对等体和一个领导群体，辅助对等体通过注意力机制获取自己的预测目标，来作为组群内部的目标进行蒸馏学习，然后再将知识传递给领导群体，实现知识转移。实验结果表明，该框架在训练或推理复杂度上不会牺牲性能，相较于现有方法，可以提供更好的蒸馏效果。

Dec, 2019

自蒸馏图神经网络

本文提出了基于邻近差异率（NDR）的自适应差异保留（ADR）正则化器以加强知识的传递，进而提出了一种基于 GNN-SD 框架的通用图神经网络知识蒸馏方法，它在减少训练成本的同时实现了领先的蒸馏效果，并为多种流行的骨干网路提供了一致有效的性能增强。

Nov, 2020

对抗鲁棒蒸馏

本文研究知识蒸馏过程中，如何将教师神经网络的鲁棒性传递给学生神经网络，并提出一种称为 Adversarially Robust Distillation (ARD) 的方法。实验证明，采用 ARD 的学生模型在鲁棒性上的表现明显优于采用相同结构的敌对训练网络，并在标准鲁棒性基准测试中超越了当前最先进的方法。

May, 2019

用图神经网络提炼整体知识

本文提出一种基于属性图的全局知识蒸馏方法，通过自适应地聚合相关样本的单独知识，将它们与关系型邻域样本的关联知识整合成统一的图嵌入，并以对比的方式训练学生网络来蒸馏全局知识。

Aug, 2021

无图知识蒸馏用于图神经网络

本文提出了一种被称为无图知识蒸馏（GFKD）的方法，通过建模多元伯努利分布来学习知识传输的图拓扑结构，并使用梯度估计器来优化该框架，该方法适用于处理不同拓扑结构的非网格数据。经过广泛的实验，GFKD 实现了从 GNN 中蒸馏知识的最先进性能，无需训练数据。

May, 2021