排名中的评价项目对比解释

Dec, 2023

Evaluative Item-Contrastive Explanations in Rankings

Alessandro Castelnovo, Riccardo Crupi, Nicolò Mombelli, Gabriele Nanino, Daniele Regoli

TL;DR本文介绍了应用可解释人工智能和评估性对比解释方法以解决排名问题，并通过对公开数据进行的实验展示了其应用和特点。

Abstract

The remarkable success of artificial intelligence in advancing automated decision-making is evident both in academia and industry. Within the plethora of applications, ranking systems hold significant importance

artificial intelligence automated decision-making ranking systems explainable ai evaluative item-contrastive explanations

发现论文，激发创造

解释性人工智能（XAI）评估方法的新视角

要在可行性、领域特征和风险考虑等方面综合权衡，才能更好地协商可解释性和系统性能之间的平衡，并为未来研究和最佳实践提供基础。

Jul, 2023

基于项目反应理论的举例解释

本研究使用 IRT 作为一种解释模型和衡量 Explanation-by-Example 方法的可靠性的工具，发现在测试集中，83.8％的错误是通过 IRT 界定该模型不可靠。

Oct, 2022

定量评估显著性方法：实验研究

本文基于对解释人工智能（XAI）的准确定义和公正衡量标准缺失的讨论，提出了一种广泛的实验研究，重点关注解释方法的忠实度、本地化、假阳性、敏感度检查和稳定性。实验结果表明，在当前所有方法中，梯度加权类激活映射（Grad-CAM）和随机输入抽样解释（RISE）在大多数指标上表现良好。另外，本文还提出了一种筛选指标的方法，以诊断模型分类基础，并探讨了当前指标所忽略的测量因素。

Dec, 2020

可解释性方法评估的实验研究

本文比较了 14 个不同的评估指标在 9 种最先进的 XAI 方法和 3 种用作参考的虚拟方法（如随机显著性图）上的应用结果，结果表明其中一些指标会产生高度相关的结果，还展示了基准超参数变化对评估指标值的显著影响，最后使用虚拟方法评估指标的可靠性及其排名方面的限制。

May, 2023

解释方法质量评估标准的元调查

通过文献调研和元分析，我们建议采用适当的信任作为衡量主观评价标准结果的标准，并提出了一个解释质量方面的模型，其中类似定义的标准被分组，并与三个识别出的质量方面相关联：模型、解释和用户。最后我们提出了一个包含四个常用标准（群）的模型，涵盖了解释质量的所有方面：性能、适当的信任、解释满意度和忠实度。该模型可以作为比较评估的图表，以创建更具可推广性的解释质量研究。

Mar, 2022

评估模型解释在模型开发中的效用

通过用户研究，本研究评估了可解释人工智能在实际场景中对人类决策的改进效果，结果发现虽然解释有助于用户更准确地描述模型，但对于模型选择和反事实模拟这两个任务，并没有找到使用任何显著改进的证据，这表明对基于显著性的解释的实用性和可能的误解需要谨慎对待。

Dec, 2023

推荐系统中的文本解释和评价

本篇论文探讨了在自然语言处理和推荐任务中推断高质量执行操作和使解释具有可操作性的两个基本挑战，并通过证明解释性不以在两个应用中展示的卓越表现为代价的框架将人工智能应用实践的承诺变为现实。

May, 2022

从个人经验到量化评估方法：评估可解释 AI 的系统综述

文章讨论了机器学习模型解释性和可解释性的多方面问题，并提出了 12 个概念性属性，如紧凑性和正确性来全面评估解释的质量。文章还提供了定量 XAI 评估方法的广泛概述，以及提供了创新的库和方法帮助研究人员和从业者彻底验证、基准测试和比较新的和现有的 XAI 方法。

Jan, 2022

可解释人工智能：系统综述

这篇论文从四个主要聚类方向：综述文章、理论和概念、方法及其评估，总结了可解释人工智能领域的最新技术水平并提出了未来研究方向。

May, 2020

法庭秩序：易发生分歧的可解释人工智能方法

研究表明，基于排名相关性进行的注意力权重和特征添加解释方法之间的相关性分析，要么证明了基于注意力的解释作为显著性的忠实且合理的措施的作用，要么否定了这一点。但是，作者对 LIME，DeepLIFT 等多种解释技术的实验结果表明，并不存在一个能够弥合这些技术之间存在的明显分歧的排名相关度量方法。因此，作者建议从社区提出的严谨诊断方法入手，进行模型解释的改进。

May, 2021