显著性指标的合理性检验

AAAINov, 2019

Sanity Checks for Saliency Metrics

Richard Tomsett, Dan Harborne, Supriyo Chakraborty, Prudhvi Gurram, Alun Preece

TL;DR本研究探索了现有的用于评估显著图质量（即 “保真度”）的指标，并发现当前文献中这些指标的计算方式缺乏一致性，且可重复性差，说明用这些指标生成的显著图质量排名可能不可信。

Abstract

saliency maps are a popular approach to creating post-hoc explanations of image classifier outputs. These methods produce estimates of the relevance of each pixel to the classification output score, which can be

saliency maps post-hoc explanations relevance estimation fidelity evaluation saliency metrics

发现论文，激发创造

显著图的合理性检查

本文对几种显著性方法进行实验和理论探索，提出用可行的方法来评估一种方法所能提供和不能提供的解释类型。实验证明，有些现有的显著性方法具有独立性，这些方法不受模型和数据生成过程的影响，因此，那些未通过所提出测试的方法，对于对数据或模型敏感的任务（如在数据中找到异常值，解释模型所学到的输入和输出之间的关系以及调试模型）是不适当的。与边缘检测类比，本文发现一些显著性方法无需训练数据或模型就能有效实现其功能。

Oct, 2018

评估显著性热点图在医学影像异常定位中的（不）可信性

该研究评估了 8 种常用显著性图技术在医学图像中的实用性和健壮性，发现所有的技术都未能同时满足局部化实用性、模型权重随机化敏感性、重复性和可重复性这四个标准，并建议在高风险的医学图像中使用检测或分割模型来实现局部化。

Aug, 2020

不同的评估指标对显著性模型的解释

本文分析了 8 种不同的评估指标及其属性，通过系统性实验和计算可视化，为显著性评分的可解释性和评估的透明度增加了解释性。建立在指标属性和特性之上，我们针对特定应用和假设为度量选择提供了建议。

Apr, 2016

简化显著性基准测试：分离模型、显著图和度量

通过贝叶斯决策理论，将视觉显著性模型、显著性地图和评价指标分离，提出了一种基于概率模型的注视密度预测方法，并通过计算这些最优显著性地图来解决了显著性模型评估中不一致的指标问题。

Apr, 2017

图像解释的分类评估指标：构建可靠的可解释性人工智能评估

计算机视觉模型的决策过程（尤其是深度神经网络）的不透明性意味着这些决策无法被人类理解。因此，在过去几年中，已经提出了许多提供人理解解释的方法。本文针对图像分类开发了新的评估指标，并对常见的显著性方法在 ImageNet 上进行了基准测试。此外，还提出了一种基于心理测评概念的可靠性评估方案。

Jun, 2024

显著性方法的稳定性模拟

本文提出了一种综合评估图像中 “重要” 像素的方法 SMERF，并基于该方法评估了现有 Saliency 方法。通过实验结果表明，这些 Saliency 方法有着诸多限制，并提出了发展新的 Saliency 方法的参考意见。

May, 2021

用于模型可解释性的基于遮罩的显著性方法研究与简化

本研究采用掩蔽技术生成显著性地图，发现训练分类器的同时，采用掩蔽技术生成显著性地图具有很高的性能，并且 10 个样本每类也可以显著提高显著性地图的精度。

Oct, 2020

关于视觉解释的定量评估的一致性

研究神经网络的预测可视化解释，并评价这些解释的好坏。其中，绝大多数评价方法使用 ImageNet-1k 和人工检测评估结果，结果表明评价方法之间缺乏一致性。同时，解释的稀疏性对评价方法的表现具有显著影响。

Feb, 2023

提高图像分类的事后解释基准可靠性

通过使用心理度量学中的 Krippendorf's alpha 来量化图像分类后置解释方法的可靠性，本研究提出了模型训练改进方法，包括使用扰动样本和采用焦点损失函数，以增强鲁棒性和校准性。经验证实，跨度度量、数据集和后置方法，该开创性工作在可靠性评估上取得了显著改进，为后置解释方法的更可靠评估实践奠定了基础，并强调了模型鲁棒性在评估过程中的重要性。

Nov, 2023

评估神经语言模型的显著性方法

本文通过对 NLP 模型的神经语言进行全面的定量评估，从两个方面评价了预测解释的质量：可信度和可信度。通过评估，我们发现，如何在给定相同模型和预测时，不同的显着性方法经常在解释上产生分歧。作者建议部署此类方法到神经语言模型的未来工作，应该在得出结果之前仔细验证其解释。

Apr, 2021