重新思考用户研究设计以评估模型解释

AAAIDec, 2021

重新思考用户研究设计以评估模型解释

Explain, Edit, and Understand: Rethinking User Study Design for Evaluating Model Explanations

Siddhant Arora, Danish Pruthi, Norman Sadeh, William W. Cohen, Zachary C. Lipton...

TL;DR该研究通过一个众包实验，探讨解释机器学习模型的预测对人类是否具有帮助，并发现在给定特征系数的情况下，人们能够更有效地对线性词袋模型进行操纵，但解释对 BERT 型分类器并没有显著提高操纵能力，而通过伪造 BERT 模型的线性模型的对全局归属的解释则可以有效地操作 BERT 型模型。

Abstract

In attempts to "explain" predictions of machine learning models, researchers have proposed hundreds of techniques for attributing predictions to features that are deemed important. While these attributions are often claimed to hold the potential to improve human "understanding" of the

machine learning models attribution techniques deception detection linear bag-of-words model bert-based classifier

发现论文，激发创造

挑战功能归因解释中的常见可解释性假设

通过人类实验，我们发现属性解释法在某些情况下会导致决策者做出更糟糕的决策，这一结果挑战了应用这些方法的普遍好处的假定，在可解释的 AI 研究中人类评价的重要性下应该得到重视。

Dec, 2020

评估模型解释在模型开发中的效用

通过用户研究，本研究评估了可解释人工智能在实际场景中对人类决策的改进效果，结果发现虽然解释有助于用户更准确地描述模型，但对于模型选择和反事实模拟这两个任务，并没有找到使用任何显著改进的证据，这表明对基于显著性的解释的实用性和可能的误解需要谨慎对待。

Dec, 2023

人类预测和机器学习模型解释中的欺骗检测案例研究

该研究利用欺骗检测作为实验平台，研究了如何利用机器学习模型的解释和预测来提高人类表现，并保持人类主体性。结果表明，机器预测的解释可以促进人类表现的提高，而这种提高与机器高性能的明确建议具有相似的效果。

Nov, 2018

评估解释：老师的解释在多大程度上有助于学生？

本文提出了一个框架，通过衡量解释对用于模拟教师模型的学生模型的精确度增益来量化解释的价值，并比较了多种文本分类和问题回答任务的解释方法，观察到了在不同学生模型结构和学习策略中一致的定量差异。

Dec, 2020

模型准确性和解释透明度如何影响用户信任

研究表明，在机器学习中，准确度比可解释性更重要，添加解释可能会损害用户信任，同时高度真实的解释不能欺骗用户的信任，用户的信任感与其实际表现不符。

Jul, 2019

模型何时能从解释中学习？理解解释数据的角色的正式框架

这篇论文研究了解释数据对于模型效能的影响，利用回收法证明了推理为主的文本输入任务中，解释数据可用作模型输入，且采用检索式的建模方法可以使合成任务的准确率达到 95%，而无解释数据的基线准确率低于 65%。

Feb, 2021

信念偏误和解释的交互作用

该研究介绍了解释性方法的评估问题，说明了评估中信仰偏见的重要性并提出了 NLP 从业者应该如何解决这一问题，同时通过基于梯度的解释性案例研究得到，在评估中考虑个体先验信仰的重要性。

Jun, 2021

解释模型：解释对公正评判的影响的经验研究

通过一项关于程序生成解释的实证研究，我们发现不同类型的解释如何影响人们对机器学习系统的公平判断，其中某些解释可增强人们对算法公正性的信心，但也有部分解释会被认为是不公平的，此外，不同类型的解释也能更有效地揭示不同的公平问题，因此我们讨论了提供个性化和自适应的解释来支持机器学习系统的公平判断。

Jan, 2019

基于显著性解释的文本人类解读

通过研究用于文本数据的基于显著性的解释，本研究调查了多种因素（如输入，解释和可视化方式）对普通人理解解释的影响，并发现类似单词长度等表面和不相关的因素会影响解释的理解，但通过基于模型评估的方法，可以提高人们的理解能力。

Jan, 2022

机器解释与人类理解

本研究通过适应性因果图的方式，探讨了人机共存下机器学习模型解释与人类理解的相互作用。研究发现，提高人类针对模型决策边界的理解是可能的，但提高人类对任务决策边界或模型错误的理解需要结合人类主观性经验去实现。最后，本研究提出了一些可行的措施，以及未来机器学习模型解释研究的方向。

Feb, 2022