深度伪造检测模型的可解释人工智能评估的对抗攻击方法
深度学习算法的崛起在计算机视觉任务中取得了重大进展,但它们的 “黑匣子” 性质引发了对可解释性的关注。可解释人工智能(XAI)作为一个重要的研究领域出现,旨在打开这个 “黑匣子”,并揭示人工智能模型的决策过程。视觉解释作为可解释人工智能的一个子集,通过突出显示输入图像中的重要区域,为处理视觉数据的人工智能模型的决策过程提供直观的见解。我们提出了一个 XAI 基准,其中包括来自不同主题的数据集集合,为图像提供了类别标签和相应的解释注释。我们引入了一个全面的视觉解释流程,在这个流程中整合了数据加载、预处理、实验设置和模型评估过程。此结构使研究人员能够公平比较各种视觉解释技术。此外,我们对视觉解释的超过 10 种评估方法进行综合评述,以帮助研究人员有效利用我们的数据集合。为了进一步评估现有的视觉解释方法的性能,我们使用各种以模型为中心和以真实标注为中心的评估指标在选定的数据集上进行实验。我们希望这个基准可以推动视觉解释模型的进步。这个 XAI 数据集合和用于评估的易于使用的代码公开可访问。
Oct, 2023
该论文对 50 多篇与机器学习模型解释袭击和公正性度量有关的研究进行了简要综述,并讨论了如何防御攻击和设计稳健的解释方法。该论文提出了现有 XAI(可解释人工智能)不安全因素的列表,并概述了 Adversarial XAI(AdvXAI)的新兴研究方向。
Jun, 2023
本文提出了一种新的解释技术,称为 SHifted Adversaries using Pixel Elimination (SHAPE),并证明了它是一种对常用重要性基于视觉 XAI 方法进行鲁棒性和可靠性度量的对抗性解释,相比于 GradCAM 和 GradCAM ++ 等流行解释技术,在这些测试中,SHAPE 表现更好,并引发了与这些度量标准以及人的参与评估的整体改进的问题。
Jun, 2024
我们提出了一种新的评估方法,用于基准测试最先进的可解释 AI 归因方法,该方法由合成的分类模型及其衍生的地面实况解释组成,该方法提供了关于 XAI 方法输出的更深入的洞察。
Aug, 2023
该研究提出了一个新的框架,用于评估解释方法在深造假检测器决策上的表现。通过检查这些区域可以通过一系列对抗性攻击进行修改的程度,来评估解释方法识别出对深造假检测器决策影响最大的伪造图像区域的能力,预计更准确地识别这些区域的方法会导致深造假检测的准确性和预测程度更大的下降。基于这一框架,我们使用基于 FaceForensics++ 数据集训练的最先进的深造假检测模型以及文献中的五种解释方法进行了比较研究。我们的定量和定性评估结果表明,LIME 解释方法相对于其他方法具有先进的性能,且对于解释所使用的深造假检测器的决策来说是最合适的。
Apr, 2024
通过适应最近的 XAI 分类算法并将它们用于多类别图像分割,本文着重于对高分辨率卫星图像中的建筑物分割的研究,引入了一种基于 “熵” 来衡量模型不确定性的新的 XAI 评估方法和指标,以此来提供透明度和可解释性,为图像分割领域的 XAI 研究和遥感应用铺平道路。
Oct, 2023
本文发现了一个问题:通过微调输入图像,我们可以演示图像识别的解释方式可以通过进化策略对其进行任意操作。通过我们的 Adversarial XAI 算法 AttaXAI,我们能够在不使用梯度或其他模型内部的情况下,成功地在黑盒设置下操作解释方法,从而实现了对图像做微小改变却使 XAI 方法输出特定解释的目标。
Nov, 2022
我们提出了一个集成的过程,用于验证 AI 模型的准确性、评估其鲁棒性以及比较解释效用,并展示了六种计算机视觉模型在不同扰动和 XAI 方法下的评估结果。
Jan, 2024
本文比较了 14 个不同的评估指标在 9 种最先进的 XAI 方法和 3 种用作参考的虚拟方法(如随机显著性图)上的应用结果,结果表明其中一些指标会产生高度相关的结果,还展示了基准超参数变化对评估指标值的显著影响,最后使用虚拟方法评估指标的可靠性及其排名方面的限制。
May, 2023