信念偏误和解释的交互作用

ACLJun, 2021

On the Interaction of Belief Bias and Explanations

Ana Valeria Gonzalez, Anna Rogers, Anders Søgaard

TL;DR该研究介绍了解释性方法的评估问题，说明了评估中信仰偏见的重要性并提出了 NLP 从业者应该如何解决这一问题，同时通过基于梯度的解释性案例研究得到，在评估中考虑个体先验信仰的重要性。

Abstract

A myriad of explainability methods have been proposed in recent years, but there is little consensus on how to evaluate them. While automatic metrics allow for quick benchmarking, it isn't clear how such metrics reflect human interaction with explanations. →

explainability human evaluation belief bias nlp practitioners gradient-based explainability

发现论文，激发创造

使用随机调查实验测试基于显著性的可解释性在自然语言处理中的有效性

该研究通过一个基于随机抽样的实验，旨在检验基于显著性的事后可解释性方法在自然语言处理中的有效性，结果表明，人类往往会倾向于较少批判性地接受该类解释。

Nov, 2022

我不能预测的，我就不理解：一个以人为中心的可解释性方法评估框架

本研究通过心理物理实验评估了 AI 系统的说明方法的人类使用者的理解能力，并发现不同的场景对于提高人类理解 AI 系统的说明方法的效果存在较大的差异，因此需要开发提供定性信息的补充方法。

Dec, 2021

重新思考用户研究设计以评估模型解释

该研究通过一个众包实验，探讨解释机器学习模型的预测对人类是否具有帮助，并发现在给定特征系数的情况下，人们能够更有效地对线性词袋模型进行操纵，但解释对 BERT 型分类器并没有显著提高操纵能力，而通过伪造 BERT 模型的线性模型的对全局归属的解释则可以有效地操作 BERT 型模型。

Dec, 2021

解释性的提高是否等同于最优性的减损？—— 解释对决策的偏见

机器学习算法越来越被用于组织的决策中，特征解释引入因果模型的语义，导致决策者的先验偏见泄漏，并产生确认偏见和决策结果的差异，从而导致次优和有偏的决策结果。

Jun, 2022

挑战功能归因解释中的常见可解释性假设

通过人类实验，我们发现属性解释法在某些情况下会导致决策者做出更糟糕的决策，这一结果挑战了应用这些方法的普遍好处的假定，在可解释的 AI 研究中人类评价的重要性下应该得到重视。

Dec, 2020

解释模型：解释对公正评判的影响的经验研究

通过一项关于程序生成解释的实证研究，我们发现不同类型的解释如何影响人们对机器学习系统的公平判断，其中某些解释可增强人们对算法公正性的信心，但也有部分解释会被认为是不公平的，此外，不同类型的解释也能更有效地揭示不同的公平问题，因此我们讨论了提供个性化和自适应的解释来支持机器学习系统的公平判断。

Jan, 2019

评估模型解释在模型开发中的效用

通过用户研究，本研究评估了可解释人工智能在实际场景中对人类决策的改进效果，结果发现虽然解释有助于用户更准确地描述模型，但对于模型选择和反事实模拟这两个任务，并没有找到使用任何显著改进的证据，这表明对基于显著性的解释的实用性和可能的误解需要谨慎对待。

Dec, 2023

模型可解释性的人类评估的挑战与机遇

本文提出了 “描述性解释” 和 “说服性解释” 的区别，讨论了功能解释与认知功能和用户偏好可能相关的推理，并提出了两个研究方向来消除认知功能和解释模型之间的歧义，保持准确性和可解释性之间的权衡控制。

Nov, 2017

评估解释的统一框架

评估可解释性模型的统一框架是该论文的重点，它介绍了各个研究群体对解释性评估的重叠和语义错位，并提出了解释的可行性和可理解性的评估标准，以及基于可解释神经网络的学习行为预测的案例。

May, 2024

自然语言解释评估的自动度量研究

研究透明度如何为机器人和人工智能提供自然语言解释，并评估自然语言生成方法的相关度量来生成这些解释，发现基于嵌入的自动自然语言生成评估方法具有更高的相关性，这对于可解释的人工智能和透明的机器人和自主系统具有重要意义。

Mar, 2021