Explainer Divergence Scores (EDS): 一些事后解释可能有效于检测未知的虚假相关性

Nov, 2022

Explainer Divergence Scores (EDS): 一些事后解释可能有效于检测未知的虚假相关性

Explainer Divergence Scores (EDS): Some Post-Hoc Explanations May be Effective for Detecting Unknown Spurious Correlations

PDF

Shea Cardozo, Gabriel Islas Montero, Dmitry Kazhdan, Botty Dimanov, Maleakhi Wijaya...

TL;DR提出了用信息理论方法评价 Deep Neural Networks 中的解释器的新方法，并发现 post-hoc 解释器对 DNN 与假象的依赖性具有相当大的信息量，但这种信息常常难以察觉。

Abstract

Recent work has suggested post-hoc explainers might be ineffective for detecting spurious correlations in deep neural networks (DNNs). How

post-hoc explainers spurious correlations deep neural networks evaluation methodology explainer divergence scores

发现论文，激发创造

事後解釋對檢測未知假相關可能無效

通过使用半合成数据集和预设的假象损伤，我们设计了一种经验方法，通过提供一组指标来评估解释方法在各种条件下检测虚假信号的可靠性。我们发现，当假象仅在测试时由解释方法的用户不知道时，后续解释方法测试是无效的，尤其是对于非可见的背景模糊等假象。同时我们也发现即使所解释的模型不依赖于虚假损伤，特征显著性方法也容易错误地指示对虚假信息的依赖。这一发现使得这些方法检测模型对虚假信号的依赖性的效用存在疑问。

Dec, 2022

同理解能机器学习技术能否检测虚假相关性？

深度神经网络模型容易学习到数据中的错误相关性，本文提出了一种评估方法，评估了五种事后解释技术和一种固有可解释的方法在胸部 X 射线诊断任务中对三种人为添加的混淆因素进行正确识别的能力，并发现 SHAP 和 Attri-Net 技术表现最佳，可用于可靠地识别错误的模型行为。

Jul, 2023

图神经网络中的去混淆技术对解释性评估的影响

本文研究图神经网络的可解释性，并提出了一种去除偏倚、准确评估网络预测结果的方法。

Jan, 2022

如何验证事后解释方法？你能信赖解释吗？

为了让人工智能系统得到广泛的公众认可，我们必须开发能够解释黑匣子模型（如神经网络）决策的方法。

Oct, 2019

应对分歧问题：以共识性解释为训练目标

本文提出一种名为 PEAR 的模型训练方法，该方法在考虑精确度的同时，引入了一个衡量不同特征影响之间差异的项，以提高基于后续特征影响的解释器对未见数据的一致性，研究发现其对特征归因解释具有积极影响。

Mar, 2023

提高图像分类的事后解释基准可靠性

通过使用心理度量学中的 Krippendorf's alpha 来量化图像分类后置解释方法的可靠性，本研究提出了模型训练改进方法，包括使用扰动样本和采用焦点损失函数，以增强鲁棒性和校准性。经验证实，跨度度量、数据集和后置方法，该开创性工作在可靠性评估上取得了显著改进，为后置解释方法的更可靠评估实践奠定了基础，并强调了模型鲁棒性在评估过程中的重要性。

Nov, 2023

可解释模型的依赖分解和拒绝选项

本文针对深度学习模型的可解释性分析依赖因素作出第一次研究，提出 Explanation Dependency Decomposition 方法，并使用解释验证预测结果。

Dec, 2020

重新思考用户研究设计以评估模型解释

该研究通过一个众包实验，探讨解释机器学习模型的预测对人类是否具有帮助，并发现在给定特征系数的情况下，人们能够更有效地对线性词袋模型进行操纵，但解释对 BERT 型分类器并没有显著提高操纵能力，而通过伪造 BERT 模型的线性模型的对全局归属的解释则可以有效地操作 BERT 型模型。

Dec, 2021

为模型解释调试测试

研究了后续模型解释对于诊断模型错误的有效性，通过将错误按来源分类为数据、模型和测试时污染性错误，评估了几种解释方法对查找虚假相关性、误标记训练实例、诊断非初始化模型、检测测试时污染输入等错误的能力，发现这些方法能够发现虚假背景错误，但不能明确识别误标记的训练实例，同时某些方法对深度网络高层参数缺乏鲁棒性，不能有效诊断模型污染性错误。人类主体研究表明，人们未能使用归因来识别有缺陷的模型，而是主要依赖于模型预测。这些结果为研究人员和从业者在使用解释作为模型调试工具时提供了指导。

Nov, 2020

未来原位实时行星探索中实现深度学习的可解释性工具

本文使用综合梯度来描述每个神经元对输出类的归因，并提供一套可解释性工具，使神经元对于分类的个人贡献可以排名和可视化。该技术将使神经网络更小、更高效并且更可测试，有助于实现在小型嵌入式系统中的实施，更易于验证和验证，并促进将深度学习应用于未来的原地行星探测任务。

Jan, 2022