人类解释总是有帮助的吗？走向对人类自然语言解释客观评估

ACLMay, 2023

人类解释总是有帮助的吗？走向对人类自然语言解释客观评估

Are Human Explanations Always Helpful? Towards Objective Evaluation of Human Natural Language Explanations

Bingsheng Yao, Prithviraj Sen, Lucian Popa, James Hendler, Dakuo Wang

TL;DR该研究提出了一种新的度量人工注释解释质量的指标，即帮助性指标，以比较传统的模拟能力评分。在五个数据集和两种模型架构上对该指标进行了评估，结果表明其能够客观地评估注释解释的质量，同时传统的模拟能力评分则不能。

Abstract

Human-annotated labels and explanations are critical for training explainable NLP models. However, unlike human-annotated labels whose quality is easier to calibrate (e.g., with a majority vote), human-crafted free-form explanations can be quite subjective, as some recent works have discussed. Before blindly using them as ground truth to train ML models, a v

explainable nlp models human-annotated explanations evaluation metric helpfulness ml model performance

发现论文，激发创造

评估模型解释在模型开发中的效用

通过用户研究，本研究评估了可解释人工智能在实际场景中对人类决策的改进效果，结果发现虽然解释有助于用户更准确地描述模型，但对于模型选择和反事实模拟这两个任务，并没有找到使用任何显著改进的证据，这表明对基于显著性的解释的实用性和可能的误解需要谨慎对待。

Dec, 2023

利用自然语言解释缩放人类判断

本文提出了一种利用自然语言解释对大型语言模型进行训练的方法，通过收集一致性注释来标记数据，以及利用该方法对大型语言模型进行训练，从而提高标注数据的质量。

May, 2023

利用人类解释提高自然语言处理模型的研究调查

本研究介绍了学习基于人类解释的方法，并比较了使用不同解释类型和机制的不同方法，以帮助从业者选择特定用例的最佳方法。

Apr, 2022

解释质量评估中的挑战

本文探讨了解释质量的评估以及当前主流的代理分数评价方法的问题，得出代理分数与人类评分相关性较差，且使用频率越高表达能力越弱的结论，最终提出指导方针以实现有意义的评价和推动系统的发展。

Oct, 2022

再审视用于可解释 NLP 的人工标注

通过对可解释 NLP 中两个广泛使用数据集上人类注释行为及其质量进行的实验表明，工作者的资质和注释过程的细节有着显著影响，并且特定的可解释性方法会随着不同指导下获得的 ground truth rationales 而有所不同。因此，研究人员需要提供完整的注释细节并谨慎解释使用这些注释所得到的实验结果的重要性。

Apr, 2022

人工智能协作生成自由文本解释的重新构架

本文探讨利用人类书写的样例以几乎无监督的方式创作自由文本解释的任务，发现高质量的提示有助于提高语言模型的生成效果，同时人类研究表明 GPT-3 生成的解释在某些情况下能够胜过人工生成的解释；作者还结合 GPT-3 与学习自评价的筛选器对生成的解释进行过滤，结果表明这一方法能够实现较高水平的解释过滤。

Dec, 2021

解开人工智能错误之谜：探索大型语言模型的人工和机器解释的有效性

本研究通过与最新方法（集成渐变、保守 LRP 和 ChatGPT）进行对比实证调查，收集和分析了 156 个人生成的文本和基于显著性的解释，并发现与机器显著性图相比，人工显著性图尤其在解释人工智能结果时更具说明性，但其性能与对人工智能模型和解释的信任负相关，揭示了人工智能解释中的困境：当有助于理解错误的人工智能预测时，会降低任务表现。

Apr, 2024

面向人本解释性文本分类基准的探索

本文探讨了已有的文本分类数据集不能准确反映真实应用场景的问题，并提出了两点解决方案：一是在文本分类数据集中增加可解释性的评价指标，二是通过人类的应用场景与判断加强数据集的教学力度。

Nov, 2022

教我解释：可解释自然语言处理数据集综述

本文总结了解释性自然语言处理领域近年来集中收集人类注释的文本解释，将其分为三类 (highlights, free-text, and structured) 并对其注释方法进行整理，提出了现有采集方法的优点和缺点，给出了未来收集数据集的建议。

Feb, 2021

使用人工模拟研究量化图神经网络属性解释的固有用处

本文介绍了在图神经网络中使用基于模拟的方法来量化加权图解释的固有有用性，发现相应的解释可以显著提高图神经网络的样本效率。作者认为这种有用性给出的是解释质量的一个维度，可被用作解释质量评估的新工具，特别是在图解释中。

May, 2023