论人类解释的多样性和局限性

ACLJun, 2021

On the Diversity and Limits of Human Explanations

Chenhao Tan

TL;DR通过对心理学和认知科学的先前研究，该论文将 NLP 中现有的人类解释分为三类：近端机制、证据和程序，这三种类型的解释具有不同的性质和结果。

Abstract

A growing effort in nlp aims to build datasets of human explanations. However, the term explanation encompasses a broad range of notions, each with different properties and ramifications. Our goal is to provide a

nlp explanations psychology cognitive sciences proximal mechanism

发现论文，激发创造

利用人类解释提高自然语言处理模型的研究调查

本研究介绍了学习基于人类解释的方法，并比较了使用不同解释类型和机制的不同方法，以帮助从业者选择特定用例的最佳方法。

Apr, 2022

教我解释：可解释自然语言处理数据集综述

本文总结了解释性自然语言处理领域近年来集中收集人类注释的文本解释，将其分为三类 (highlights, free-text, and structured) 并对其注释方法进行整理，提出了现有采集方法的优点和缺点，给出了未来收集数据集的建议。

Feb, 2021

对解释的人类可解释性评估

研究探讨了通过对模拟响应、验证建议响应、确定建议响应的正确性并观察其输入变化等三项特定任务，来解释可解释的 AI 的互动可能。结果表明，特定的正则化可以用于优化可解释性，而一些共同点和设计原则也可能存在于解释的系统之间。我们的结果表明，认知块比变量重复更影响表现，并且这些趋势在任务和领域中保持一致。

Jan, 2019

学习解释：通过改写回答为什么问题

本文旨在探讨人机交互中提供合理的解释是何等富有挑战性的，以及如何在生成自然语言解释时克服知识的多种抽象形式及推理。我们通过自动化新颖的数据收集方式构建了一种序列到序列的自然语言生成模型，并证明该方式相比其他方式能够更好地解释开放域现象。

Jun, 2019

通过解释理解和预测自然语言推理中的人类标签变化

该论文创建了一个包含注解高亮和自由文本解释的生态有效的自然语言推断数据集 --LiveNLI。使用该数据集对思维链进行提示，发现目前 GPT-3 在预测标签分布方面仍有改进的空间

Apr, 2023

自然有效的自然语言推理标签变异解释

人类标签差异存在于许多自然语言处理任务中，包括自然语言推理。在研究中，我们建立了 LiveNLI 数据集，通过 1415 个生态有效解释（标注者解释他们选择的 NLI 标签）来获取直接证据，研究了标签差异的产生。结果显示，解释对于理解标签的不同解释至关重要，并且标注者有时会基于不同的原因选择相同的标签，这表明解释在一般中导航标签解释方面起着关键作用。我们进行了少样本大语言模型生成解释的尝试，但结果不一致：它有时会产生有效和有信息量的解释，但也会生成不支持标签的不合理的解释，提出了改进的方向。

Oct, 2023

针对 NLP 模型的最优健壮性解释保证

本文提出了基于绑架式解释的机器学习方法，为自然语言处理中的神经网络模型计算局部解释。根据用户定义的代价函数，例如解释长度，优化词汇子集以满足两个主要特征。同时在嵌入空间中确保预测不变性，该方法通过内隐命中集和最大通用子集两种解法得出结果，并可以配置不同的扰动集来检测预测结果的偏见，提高 NLP 解释框架的效果。最后，文章在 SST、Twitter 和 IMDB 数据集上对三种常用情感分析任务进行了评估，并展示了该框架的有效性。

May, 2021

科学解释与自然语言：用于可解释人工智能的统一认识论 - 语言学视角

通过系统分析自然语言解释、结合归纳和演绎论证、和哲学科学中的科学解释现代观念，探讨可解释 AI（XAI）中的可解释性，并揭示自然语言解释的本质，功能，抽象维度和科学解释的含义。

May, 2022

AI 解释的解释

该论文关注机器学习中可解释性问题，侧重于简化模型的构建及不同形式的解释与说明，并探讨了机器学习在处理该问题时的广义视角。

Nov, 2018

机器解释与人类理解

本研究通过适应性因果图的方式，探讨了人机共存下机器学习模型解释与人类理解的相互作用。研究发现，提高人类针对模型决策边界的理解是可能的，但提高人类对任务决策边界或模型错误的理解需要结合人类主观性经验去实现。最后，本研究提出了一些可行的措施，以及未来机器学习模型解释研究的方向。

Feb, 2022