模型调试解释效用基准测试

ACLMay, 2021

Towards Benchmarking the Utility of Explanations for Model Debugging

Maximilian Idahl, Lijun Lyu, Ujwal Gadiraju, Avishek Anand

TL;DR本文提出需要为后续说明方法建立基准来评估其在完成任务中的效用，并列举了为解决调试文本分类器任务的基准所应具备的理想属性，并强调这种基准不仅有助于评估解释的有效性，还有助于评估其效率。

Abstract

post-hoc explanation methods are an important class of approaches that help understand the rationale underlying a trained model's decision. But how useful are they for an →

post-hoc explanation methods trained model end-user benchmark debugging text classifiers

发现论文，激发创造

提高图像分类的事后解释基准可靠性

通过使用心理度量学中的 Krippendorf's alpha 来量化图像分类后置解释方法的可靠性，本研究提出了模型训练改进方法，包括使用扰动样本和采用焦点损失函数，以增强鲁棒性和校准性。经验证实，跨度度量、数据集和后置方法，该开创性工作在可靠性评估上取得了显著改进，为后置解释方法的更可靠评估实践奠定了基础，并强调了模型鲁棒性在评估过程中的重要性。

Nov, 2023

为模型解释调试测试

研究了后续模型解释对于诊断模型错误的有效性，通过将错误按来源分类为数据、模型和测试时污染性错误，评估了几种解释方法对查找虚假相关性、误标记训练实例、诊断非初始化模型、检测测试时污染输入等错误的能力，发现这些方法能够发现虚假背景错误，但不能明确识别误标记的训练实例，同时某些方法对深度网络高层参数缺乏鲁棒性，不能有效诊断模型污染性错误。人类主体研究表明，人们未能使用归因来识别有缺陷的模型，而是主要依赖于模型预测。这些结果为研究人员和从业者在使用解释作为模型调试工具时提供了指导。

Nov, 2020

事后反事实解释的问题：一次讨论

本文探讨了后设反事实解释方法对数据和分类器的基本假设导致其在很多情况下的不可靠性，并提出了近似性、连通性和稳定性三种量化方法和途径。另外，本文还证明了后设反事实方法不满足这些属性的风险。

Jun, 2019

事后 XAI 方法中的可预测性与可理解性：用户中心分析

评估 LIME 和 SHAP 两种常用工具的用户可理解性和可预测性，发现 SHAP 对于接近模型决策边界的样本提供的解释可理解性显著降低。此外，发现反事实解释和错误分类可以显著增加用户对机器学习模型决策的理解。根据研究结果，提出为未来的事后解释方法提供增加可理解性和可预测性的设计建议。

Sep, 2023

黑盒模型解释方法的基准测试和调查

这篇论文探讨了在人工智能中黑盒模型的广泛应用，加强了揭示这些模型是如何做出决策的需求，首先提出一种基于返回信息类型的解释方法分类，展示最近和广泛使用的解释器，通过视觉比较和定量基准测试进行展示。

Feb, 2021

神经网络自然语言处理的事后可解释性：一项综述

本文主要讨论了近期后续方法如何向人类传达模型解释的分类，深入讨论了每种方法及其验证过程。

Aug, 2021

如何验证事后解释方法？你能信赖解释吗？

为了让人工智能系统得到广泛的公众认可，我们必须开发能够解释黑匣子模型（如神经网络）决策的方法。

Oct, 2019

面向人本解释性文本分类基准的探索

本文探讨了已有的文本分类数据集不能准确反映真实应用场景的问题，并提出了两点解决方案：一是在文本分类数据集中增加可解释性的评价指标，二是通过人类的应用场景与判断加强数据集的教学力度。

Nov, 2022

关于解释在域外环境中的实证研究

该论文探索了自然语言处理中有关如何在不同领域中提取精准的解释的方法，其中侧重于后续解释和固有的忠诚度模型，并且发现后续解释的忠诚度在许多情况下比在领域内更高，而在跨域设置中，选择后预测模型的预测性能与完整训练模型相当。

Feb, 2022

后验解释能够提高语言模型的性能

AMPLIFY 框架使用后续解释的方法，自动生成自然语言解释以提供纠正信号，从而提高 Large Language Models 的预测准确率。

May, 2023