基于 CLEVR-XAI 的神经网络解释的地面真实性评估

Mar, 2020

基于 CLEVR-XAI 的神经网络解释的地面真实性评估

Ground Truth Evaluation of Neural Network Explanations with CLEVR-XAI

Leila Arras, Ahmed Osman, Wojciech Samek

TL;DR本文提出了一种基于 CLEVR 视觉问题回答任务的基准评估框架，在十种不同的 XAI 方法上进行比较和评估，结果得到了新的关于 XAI 方法质量和属性的深入认识。

Abstract

The rise of deep learning in today's applications entailed an increasing need in explaining the model's decisions beyond prediction performances in order to foster trust and accountability. Recently, the field of explainable ai (XAI) has developed methods that provide such explanations

explainable ai neural networks heatmaps evaluation framework visual question answering

发现论文，激发创造

利用基于热图的可解释 AI 提高深度神经网络分类置信度

本文研究基于热图的可解释 AI 方法在图像分类问题中的质量，并且提出了一个新的分布来显示正确预测和错误预测之间的鲜明差异。最后，提出了一种名为 “生成增强解释” 的方法，可生成能够提高预测精度的热图。

Dec, 2021

一种生成带有 XAI 地面真实性数据集的方法，以评估图像模型的新方法

本研究提出了一种生成具有真实标准数据集的新方法来衡量可解释人工智能的解释质量，并通过实验证明了该方法的正确性。

Feb, 2023

视觉解释的可解释人工智能基准

深度学习算法的崛起在计算机视觉任务中取得了重大进展，但它们的 “黑匣子” 性质引发了对可解释性的关注。可解释人工智能（XAI）作为一个重要的研究领域出现，旨在打开这个 “黑匣子”，并揭示人工智能模型的决策过程。视觉解释作为可解释人工智能的一个子集，通过突出显示输入图像中的重要区域，为处理视觉数据的人工智能模型的决策过程提供直观的见解。我们提出了一个 XAI 基准，其中包括来自不同主题的数据集集合，为图像提供了类别标签和相应的解释注释。我们引入了一个全面的视觉解释流程，在这个流程中整合了数据加载、预处理、实验设置和模型评估过程。此结构使研究人员能够公平比较各种视觉解释技术。此外，我们对视觉解释的超过 10 种评估方法进行综合评述，以帮助研究人员有效利用我们的数据集合。为了进一步评估现有的视觉解释方法的性能，我们使用各种以模型为中心和以真实标注为中心的评估指标在选定的数据集上进行实验。我们希望这个基准可以推动视觉解释模型的进步。这个 XAI 数据集合和用于评估的易于使用的代码公开可访问。

Oct, 2023

寻找合适的 XAI 方法 -- 评估和排名可解释气候科学人工智能方法指南

本研究介绍了 XAI 在气候研究中的应用，并评估了不同的解释属性，建立在先前的工作和训练多层感知器 MLP 和卷积神经网络 CNN 进行预测，我们发现 Integrated Gradients，Layer-wise relevance propagation 和 InputGradients 表现得很好。

Mar, 2023

解析 AI 归因方法的精确基准测试

我们提出了一种新的评估方法，用于基准测试最先进的可解释 AI 归因方法，该方法由合成的分类模型及其衍生的地面实况解释组成，该方法提供了关于 XAI 方法输出的更深入的洞察。

Aug, 2023

使用热图字幕和大型语言模型实现深度神经网络自解释性

本论文提出了一个自动、交互式、可扩展且易于访问的框架，包括上下文建模和推理两个模块，提出了一种基于模板的图像标题生成方法，利用大规模语言模型来提供解释，以解决图像热力图的自动化问题。实验证明了该框架和热力图生成方法的有效性。

Apr, 2023

CLEVR-X：自然语言解释的视觉推理数据集

本文介绍了一个基于机器学习的可视化问答生成自然语言解释过程的方法，使用 CLEVR-X 数据集进行自然语言解释的基线结果分析，以及研究了不同问题和不同数量的真实解释对自然语言生成质量的影响。

Apr, 2022

可解释性方法评估的实验研究

本文比较了 14 个不同的评估指标在 9 种最先进的 XAI 方法和 3 种用作参考的虚拟方法（如随机显著性图）上的应用结果，结果表明其中一些指标会产生高度相关的结果，还展示了基准超参数变化对评估指标值的显著影响，最后使用虚拟方法评估指标的可靠性及其排名方面的限制。

May, 2023

评估 XAI 事后技术的准确性：与地面真实解释数据集的比较研究

评估可解释人工智能方法与其基础模型的逼真度是一项具有挑战性的任务，本研究通过引入三个可靠的解释基准数据集，对当前最先进的可解释人工智能方法进行公平客观的比较，以识别逼真度较低的方法，并将其排除在进一步研究之外，促进了更可靠和有效的可解释人工智能技术的发展。研究结果表明，基于输出信息反向传播到输入的可解释人工智能方法相比于基于敏感性分析或类激活模式的方法具有更高的准确性和可靠性，但反向传播方法往往会生成更多噪声显著图。这些发现对于可解释人工智能方法的进展具有重要意义，可以消除错误的解释，促进更健壮可靠的可解释人工智能的发展。

Nov, 2023

用于评估 XAI 方法的数据代表真实解释

本文介绍了使用规范方程代表解释的方法，以解决可解释的人工智能和可解释的机器学习方法面临的挑战，并提出使用合成数据来评估模型准确性的方法。

Nov, 2020