评价自然语言处理中人机决策的解释效用

Jul, 2024

评价自然语言处理中人机决策的解释效用

On Evaluating Explanation Utility for Human-AI Decision Making in NLP

Fateme Hashemi Chaleshtori, Atreya Ghosal, Alexander Gill, Purbid Bambroo, Ana Marasović

TL;DR解释性是否是一个虚假的承诺？从目前不足的证据来看，解释是否有助于人们在介绍的情况下，这场辩论已经出现。需要更多以人为中心、应用为基础的解释评估，以解决这个问题。然而，在NLP领域没有建立关于这类研究的指导方针，习惯于标准代理评估的研究人员必须找到适合人工智能团队的合适的测量、任务、数据集和合理的模型。为了帮助解决这个问题，我们首先审查了现有的度量标准。然后，我们确定了适合应用基础评估的数据集的要求。在50多个可用于解释性研究的NLP数据集中，我们发现有4个符合我们的标准。通过优化Flan-T5-3B，我们展示了重新评估最新技术水平形成和研究人工智能团队的重要性。最后，我们针对一个确定的合适任务——在给定合同的情况下验证法律主张的正确性，提出了关于人工智能决策的典型研究。

Abstract

Is explainability a false promise? This debate has emerged from the insufficient evidence that explanations aid people in situations they are introduced for. More human-centered, application-grounded evaluations

发现论文，激发创造

机器学习本地解释的人类基准评估

本文提出了一个针对图像和文本领域使用的人类注意力基准，使用多层人类注意力蒙版的评估方法评估了使用Grad-cam和LIME技术获得的模型显著性解释，并通过比较单层对象分割掩码评估的主观评分和基准阈值不可知的评估方法的效果，表明我们的基准更加有效。同时，本文的实验还揭示了主观评分中的用户偏见。

Jan, 2018

可解释的人工智能是否能改善人类决策？

使用真实数据集进行对比和评估，在控制组、具有AI预测（未解释），以及具有解释的AI预测三组中比较和评估了人类决策的客观准确性。然后发现提供任何形式的AI预测都倾向于提高用户的决策准确性，但没有确凿的证据表明解释性AI具有实质性影响。因此，我们的研究结果表明解释性AI在某些情况下提供的“何以解释”的信息可能无助于用户的决策，需要进一步的研究来了解如何将解释性AI集成到实际系统中。

Jun, 2020

信念偏误和解释的交互作用

该研究介绍了解释性方法的评估问题，说明了评估中信仰偏见的重要性并提出了NLP从业者应该如何解决这一问题，同时通过基于梯度的解释性案例研究得到，在评估中考虑个体先验信仰的重要性。

Jun, 2021

可解释人工智能在人工智能决策中的应用的Meta分析

这篇论文通过对Explainable AI领域的研究进行统计元分析，得出了Explainable AI对于用户决策性能有积极的统计效应，但是并未表明解释对用户的决策性能产生了任何影响，有利于今后研究基于AI的非人类决策中人类因素的影响。

May, 2022

面向人类中心的可解释人工智能：模型解释的用户研究

本文通过系统文献综述，评估了85篇人基于XAI评估的核心论文，并对解释方法的可信、可懂、公平、可用性和人工智能团队表现等进行了归类。作者提出了关于设计和进行XAI用户研究的最佳实践指南，并强调了将心理科学和以人为中心的XAI联系起来的几个开放研究方向。

Oct, 2022

重新思考AI的可解释性与合理性

本文研究机器解释符合人类交流规范、支持人类推理过程并满足人类对人工解释的需求的重要性，指出仅仅优化和评估机器解释的合理性（Explanation Plausibility）对于提高模型的可理解性、透明性与可信度是有害无益的，因此提出了一些可行的评估方法，并重点强调了可解释性特定的评估目标的重要性。

Mar, 2023

人类解释总是有帮助的吗？走向对人类自然语言解释客观评估

该研究提出了一种新的度量人工注释解释质量的指标，即帮助性指标，以比较传统的模拟能力评分。在五个数据集和两种模型架构上对该指标进行了评估，结果表明其能够客观地评估注释解释的质量，同时传统的模拟能力评分则不能。

May, 2023

寻求可验证性：解释很少能够在AI辅助的决策判断中提供补充性的表现

本文聚焦AI辅助决策，在AI解释人类决策过程中频繁失败的背景下，提出了一个简单的理论，即解释只有在允许决策者验证其正确性时才有用，我们讨论了更有效的AI决策解释方法和人工智能-人类决策的协作。

May, 2023

面向解释性人工智能的全面人本评估框架

通过在解释性人工智能（XAI）中引入用户中心评估框架，我们希望综合评估方法，总结解释属性，建立相互关系，并分类度量这些属性，以期为XAI评估的人本标准化做出贡献。

Jul, 2023

ChatGPT对自然语言解释质量的评级如人类一样：但在哪些尺度上？

AI的透明度和责任感的需求增加了，因为对AI决策背后的推理进行自然语言解释（NLE）对于澄清重要，但通过人的判断进行评估复杂且资源密集，由于主观性和对细粒度评分的需求。本研究探索了ChatGPT与人类评估之间的一致性，涵盖了二元、三元和7-Likert量表多个等级尺度。我们从三个NLE数据集中抽取了300个数据样本，并收集了900个人类注释，用于信息量和清晰度评分作为文本质量度量。我们还在不同主观性得分范围内进行了配对比较实验，其中基线来源于8,346个人类注释。我们的结果表明，在粗粒度尺度上，ChatGPT与人类的一致性更好。配对比较和动态提示（即在提示中提供语义上相似的示例）提高了一致性。该研究推进了我们对大型语言模型的理解，以在不同配置中评估文本解释质量，为负责任的AI发展做出贡献。

Mar, 2024