基于解释的自然语言处理模型人工调试：一项调查

ACLApr, 2021

基于解释的自然语言处理模型人工调试：一项调查

Explanation-Based Human Debugging of NLP Models: A Survey

Piyawat Lertvittayakumjorn, Francesca Toni

TL;DR本研究综述了一种基于解释的人类调试（EBHD）方法，旨在通过从不同维度评估调试环境、工作流程和实验设置等考虑因素，帮助人类提供反馈和调试 NLP 模型的问题。

Abstract

debugging a machine learning model is hard since the bug usually involves the training data and the learning process. This becomes even harder for an opaque deep learning model if we have no clue about how the mo

machine learning debugging nlp models explanations human feedback

发现论文，激发创造

XMD: 一种端到端的交互式基于解释的自然语言处理模型调试框架

本研究提出 XMD：一种针对语言模型错误偏见的开源、端到端模型解释和调试框架。该框架可在线反馈用户的反馈，从而优化模型表现，提高其在文本分类任务中的 OOD 性能高达 18％。

Oct, 2022

利用人类解释提高自然语言处理模型的研究调查

本研究介绍了学习基于人类解释的方法，并比较了使用不同解释类型和机制的不同方法，以帮助从业者选择特定用例的最佳方法。

Apr, 2022

使用随机调查实验测试基于显著性的可解释性在自然语言处理中的有效性

该研究通过一个基于随机抽样的实验，旨在检验基于显著性的事后可解释性方法在自然语言处理中的有效性，结果表明，人类往往会倾向于较少批判性地接受该类解释。

Nov, 2022

为模型解释调试测试

研究了后续模型解释对于诊断模型错误的有效性，通过将错误按来源分类为数据、模型和测试时污染性错误，评估了几种解释方法对查找虚假相关性、误标记训练实例、诊断非初始化模型、检测测试时污染输入等错误的能力，发现这些方法能够发现虚假背景错误，但不能明确识别误标记的训练实例，同时某些方法对深度网络高层参数缺乏鲁棒性，不能有效诊断模型污染性错误。人类主体研究表明，人们未能使用归因来识别有缺陷的模型，而是主要依赖于模型预测。这些结果为研究人员和从业者在使用解释作为模型调试工具时提供了指导。

Nov, 2020

重新思考用户研究设计以评估模型解释

该研究通过一个众包实验，探讨解释机器学习模型的预测对人类是否具有帮助，并发现在给定特征系数的情况下，人们能够更有效地对线性词袋模型进行操纵，但解释对 BERT 型分类器并没有显著提高操纵能力，而通过伪造 BERT 模型的线性模型的对全局归属的解释则可以有效地操作 BERT 型模型。

Dec, 2021

解开人工智能错误之谜：探索大型语言模型的人工和机器解释的有效性

本研究通过与最新方法（集成渐变、保守 LRP 和 ChatGPT）进行对比实证调查，收集和分析了 156 个人生成的文本和基于显著性的解释，并发现与机器显著性图相比，人工显著性图尤其在解释人工智能结果时更具说明性，但其性能与对人工智能模型和解释的信任负相关，揭示了人工智能解释中的困境：当有助于理解错误的人工智能预测时，会降低任务表现。

Apr, 2024

使用人类解释监督模型关注力以强化自然语言推理

探究利用自然语言解释来监督模型的注意力权重，促使其更集中于解释中的关键词，从而提高模型性能，此方法的实验表明，这种改进可以适用于其它 NLI 数据集

Apr, 2021

通过解释理解和预测自然语言推理中的人类标签变化

该论文创建了一个包含注解高亮和自由文本解释的生态有效的自然语言推断数据集 --LiveNLI。使用该数据集对思维链进行提示，发现目前 GPT-3 在预测标签分布方面仍有改进的空间

Apr, 2023

针对 NLP 模型的最优健壮性解释保证

本文提出了基于绑架式解释的机器学习方法，为自然语言处理中的神经网络模型计算局部解释。根据用户定义的代价函数，例如解释长度，优化词汇子集以满足两个主要特征。同时在嵌入空间中确保预测不变性，该方法通过内隐命中集和最大通用子集两种解法得出结果，并可以配置不同的扰动集来检测预测结果的偏见，提高 NLP 解释框架的效果。最后，文章在 SST、Twitter 和 IMDB 数据集上对三种常用情感分析任务进行了评估，并展示了该框架的有效性。

May, 2021

基于人工标注的文本分类解释方法评估

本文探讨了一些适用于 CNN 文本分类的模型无关和模型特定解释方法，并进行了三次人类评估来揭示这些方法揭示模型行为、证明模型预测和帮助人类调查不确定预测的不同效果。结果表明，这些方法具有不同的性质，并且可以为每个目的提供帮助。

Aug, 2019