解释性图神经网络的解释器在对抗性攻击下表现脆弱
Jun, 2024
该研究论文探讨了关于图神经网络(GNNs)在决策过程中透明度不足的问题,并针对生成 GNNs 解释的方法和数据的评估,研究了三个主要领域的普遍问题:(1)合成数据生成过程,(2)评估指标,以及(3)解释的最终呈现。此外,本文进行了一项实证研究,探讨了这些问题的意外后果,并提出了缓解这些问题的建议。
Nov, 2021
图神经网络 (GNN) 的预测通常缺乏可解释性,因为其复杂的计算行为和图的抽象特性,为解决这一问题,出现了许多 GNN 解释方法,它们的目标是解释模型的预测结果,从而在 GNN 模型在决策关键应用中部署时获得信任,但是,大多数 GNN 解释方法都是事后提供解释,以一小部分重要的边缘和 / 或节点的形式,本文表明这些解释不能被信任,因为常见的 GNN 解释方法对对抗扰动非常敏感,这对 GNN 解释方法的可信度和实际效用提出了疑问,我们提出了一种新的攻击方法,称为 GXAttack,这是第一个针对事后 GNN 解释的基于优化的对抗攻击方法,由于我们攻击的毁灭性有效性,我们呼吁对未来的 GNN 解释器进行对抗性评估,以证明它们的鲁棒性。
研究了图神经网络在测试时间遭受对抗攻击的影响,通过边扰动进行节点之间的重要性识别和边的改变,发现在节点分类中引入不同类别节点之间的边相比于移除同一类别节点之间的边具有更大的影响。
Dec, 2023
本文探讨如何通过对图神经网络的敌对训练来提高模型的可解释性,通过一种新的度量标准来评估解释方法对模型学习到的表征的利用效果,并证明对于化学领域的应用,敌对训练可以更好地提取与领域相关的见解。
Jun, 2021
提出了一种能够生成对于噪音稳健且符合人类直觉的图神经网络的可靠反事实解释的新方法,该方法明确地对相似输入图的常见决策逻辑进行建模,并从许多相似输入图的公共决策边界中产生可靠的解释。
Jul, 2021
本文综述了现有的图神经网络可解释性技术,提出了分类方法并分别讨论了各类的优缺点、应用场景及评估指标,以协助研究人员和从业者了解现有的可解释性方法,识别不足并促进可解释性机器学习的进一步发展。
Jun, 2023
从因果关系的角度理论分析图神经网络的预测,并提出了一种简单而有效的对齐嵌入算法来消除潜在的分布偏移对解释的影响,以优化更忠实的解释目标。
May, 2022
本文研究自解释图神经网络的新问题,提出了新的框架以实现可解释的节点分类,通过可解释的相似性模块以找到每个未标记节点的 $K$ 近邻标记节点,并在真实世界和合成数据集上进行了广泛的实验验证。
Aug, 2021
本文概述了当前流行的图神经网络(GNN)解释方法,包括新的评估指标和真实世界数据集的实验比较,并提出了未来的解释发展方向。
Mar, 2022