重新思考解释：深度视觉分类器的输入无关性显著性映射

AAAIMar, 2023

重新思考解释：深度视觉分类器的输入无关性显著性映射

Rethinking interpretation: Input-agnostic saliency mapping of deep visual classifiers

Naveed Akhtar, Mohammad A. A. K. Jalwana

TL;DR本文提出了一种新的输入无关的显著性地图方法，它从计算上估计模型对其输出所归属的高级特征并通过可解释的可视化展示，以更加准确和公正地解释模型的行为，同时在大规模模型中成功应用，并且通过识别受损分类器中的后门签名，展示了这种新形式显著性映射的另一个有趣的用途。

Abstract

saliency methods provide post-hoc model interpretation by attributing input features to the model outputs. Current methods mainly achieve this using a single input sample, thereby failing to answer input-independ

saliency methods input-agnostic saliency mapping model interpretation feature attribution compromised classifiers

发现论文，激发创造

用概念显著性图像可视化深度生成模型中相关特征

提出了一种新的方法来获得生成模型中已知或新的高级概念的显著性图，即概念显著性图，对于深度学习中的潜在变量模型提高了解释性。该方法被应用于 CelebA 数据集的 VAE 潜在空间中和小鼠嗅球的空间转录组数据中，证明了其在高级概念的解释和复杂生物系统理解中的潜力。

Oct, 2019

用于模型可解释性的基于遮罩的显著性方法研究与简化

本研究采用掩蔽技术生成显著性地图，发现训练分类器的同时，采用掩蔽技术生成显著性地图具有很高的性能，并且 10 个样本每类也可以显著提高显著性地图的精度。

Oct, 2020

基于显著性引导训练的深度学习解释性改进

本文介绍了一种基于显著性引导培训的神经网络方法，可以有效降低噪声导致的特征归因不准确，并通过实验表明这种方法能够在保持预测性能的同时提高模型可解释性。

Nov, 2021

显著图的合理性检查

本文对几种显著性方法进行实验和理论探索，提出用可行的方法来评估一种方法所能提供和不能提供的解释类型。实验证明，有些现有的显著性方法具有独立性，这些方法不受模型和数据生成过程的影响，因此，那些未通过所提出测试的方法，对于对数据或模型敏感的任务（如在数据中找到异常值，解释模型所学到的输入和输出之间的关系以及调试模型）是不适当的。与边缘检测类比，本文发现一些显著性方法无需训练数据或模型就能有效实现其功能。

Oct, 2018

使用聚合输入显著性理解文本分类数据和模型

本研究采用聚合敏感度地图，结合聚类、最近邻搜索和可视化技术，力图从整体上理解模型行为，发现并解释模型的问题数据，从而为提高模型提供必要的第一步。

Nov, 2022

诊断泛化不良时，显著性可能是一个误导

该论文研究利用辅助标签（即人工绘制的掩模）训练模型以在预测任务中忽略分散注意力的外部特征，以提高模型的泛化性能，同时也探讨了模型泛化性能不佳的根本原因以及采用掩模在 “说明性预测” 任务中的实用性问题。

Oct, 2019

(不) 可靠的显著性方法

本文探讨了深度神经网络的显著性方法在解释模型预测时的可靠性问题，提出了保证输入不变性的要求，并举例说明了不满足此要求的方法可能导致错误归因。

Nov, 2017

几何引导式的整合梯度

本文提出了一种基于深度神经网络模型参数空间局部几何性质的解释性方法 —— 几何引导的积分梯度法，在主观和量化评价方面表现优于传统的积分梯度法和总体梯度法，并提出了 “模型扰动” 的健全性检查，以补充传统的 “模型随机化” 测试。

Jun, 2022

重访反向传播显著性方法

本文通过分析反向传播型显著性方法，提出了一个框架，将多种方法统一起来，进而提出了一个新的基于空间梯度特征的显著性方法 - NormGrad，并通过将不同层的显著图进行结合，测试不同层级网络提取信息的能力，并且引入了一个类别敏感指标和元学习方法以提高对输出类的敏感度。

Apr, 2020

深度显著性模型对视觉注意力的学习

通过分解隐含特征为可解释的基底，提出了一种新的分析框架，用于研究深度显著性模型成功背后的隐含特征、显著性预测的原理以及其对不同应用场景中的视觉注意力的影响。

Oct, 2023