论人类解释的多样性和局限性
本文总结了解释性自然语言处理领域近年来集中收集人类注释的文本解释,将其分为三类 (highlights, free-text, and structured) 并对其注释方法进行整理,提出了现有采集方法的优点和缺点,给出了未来收集数据集的建议。
Feb, 2021
研究探讨了通过对模拟响应、验证建议响应、确定建议响应的正确性并观察其输入变化等三项特定任务,来解释可解释的 AI 的互动可能。结果表明,特定的正则化可以用于优化可解释性,而一些共同点和设计原则也可能存在于解释的系统之间。我们的结果表明,认知块比变量重复更影响表现,并且这些趋势在任务和领域中保持一致。
Jan, 2019
本文旨在探讨人机交互中提供合理的解释是何等富有挑战性的,以及如何在生成自然语言解释时克服知识的多种抽象形式及推理。我们通过自动化新颖的数据收集方式构建了一种序列到序列的自然语言生成模型,并证明该方式相比其他方式能够更好地解释开放域现象。
Jun, 2019
该论文创建了一个包含注解高亮和自由文本解释的生态有效的自然语言推断数据集 --LiveNLI。使用该数据集对思维链进行提示,发现目前 GPT-3 在预测标签分布方面仍有改进的空间
Apr, 2023
人类标签差异存在于许多自然语言处理任务中,包括自然语言推理。在研究中,我们建立了 LiveNLI 数据集,通过 1415 个生态有效解释(标注者解释他们选择的 NLI 标签)来获取直接证据,研究了标签差异的产生。结果显示,解释对于理解标签的不同解释至关重要,并且标注者有时会基于不同的原因选择相同的标签,这表明解释在一般中导航标签解释方面起着关键作用。我们进行了少样本大语言模型生成解释的尝试,但结果不一致:它有时会产生有效和有信息量的解释,但也会生成不支持标签的不合理的解释,提出了改进的方向。
Oct, 2023
本文提出了基于绑架式解释的机器学习方法,为自然语言处理中的神经网络模型计算局部解释。根据用户定义的代价函数,例如解释长度,优化词汇子集以满足两个主要特征。同时在嵌入空间中确保预测不变性,该方法通过内隐命中集和最大通用子集两种解法得出结果,并可以配置不同的扰动集来检测预测结果的偏见,提高 NLP 解释框架的效果。最后,文章在 SST、Twitter 和 IMDB 数据集上对三种常用情感分析任务进行了评估,并展示了该框架的有效性。
May, 2021
通过系统分析自然语言解释、结合归纳和演绎论证、和哲学科学中的科学解释现代观念,探讨可解释 AI(XAI)中的可解释性,并揭示自然语言解释的本质,功能,抽象维度和科学解释的含义。
May, 2022
本研究通过适应性因果图的方式,探讨了人机共存下机器学习模型解释与人类理解的相互作用。研究发现,提高人类针对模型决策边界的理解是可能的,但提高人类对任务决策边界或模型错误的理解需要结合人类主观性经验去实现。最后,本研究提出了一些可行的措施,以及未来机器学习模型解释研究的方向。
Feb, 2022