基于解释的自然语言处理模型人工调试:一项调查
本研究提出 XMD:一种针对语言模型错误偏见的开源、端到端模型解释和调试框架。该框架可在线反馈用户的反馈,从而优化模型表现,提高其在文本分类任务中的 OOD 性能高达 18%。
Oct, 2022
该研究通过一个基于随机抽样的实验,旨在检验基于显著性的事后可解释性方法在自然语言处理中的有效性,结果表明,人类往往会倾向于较少批判性地接受该类解释。
Nov, 2022
研究了后续模型解释对于诊断模型错误的有效性,通过将错误按来源分类为数据、模型和测试时污染性错误,评估了几种解释方法对查找虚假相关性、误标记训练实例、诊断非初始化模型、检测测试时污染输入等错误的能力,发现这些方法能够发现虚假背景错误,但不能明确识别误标记的训练实例,同时某些方法对深度网络高层参数缺乏鲁棒性,不能有效诊断模型污染性错误。人类主体研究表明,人们未能使用归因来识别有缺陷的模型,而是主要依赖于模型预测。这些结果为研究人员和从业者在使用解释作为模型调试工具时提供了指导。
Nov, 2020
该研究通过一个众包实验,探讨解释机器学习模型的预测对人类是否具有帮助,并发现在给定特征系数的情况下,人们能够更有效地对线性词袋模型进行操纵,但解释对 BERT 型分类器并没有显著提高操纵能力,而通过伪造 BERT 模型的线性模型的对全局归属的解释则可以有效地操作 BERT 型模型。
Dec, 2021
本研究通过与最新方法(集成渐变、保守 LRP 和 ChatGPT)进行对比实证调查,收集和分析了 156 个人生成的文本和基于显著性的解释,并发现与机器显著性图相比,人工显著性图尤其在解释人工智能结果时更具说明性,但其性能与对人工智能模型和解释的信任负相关,揭示了人工智能解释中的困境:当有助于理解错误的人工智能预测时,会降低任务表现。
Apr, 2024
探究利用自然语言解释来监督模型的注意力权重,促使其更集中于解释中的关键词,从而提高模型性能,此方法的实验表明,这种改进可以适用于其它 NLI 数据集
Apr, 2021
该论文创建了一个包含注解高亮和自由文本解释的生态有效的自然语言推断数据集 --LiveNLI。使用该数据集对思维链进行提示,发现目前 GPT-3 在预测标签分布方面仍有改进的空间
Apr, 2023
本文提出了基于绑架式解释的机器学习方法,为自然语言处理中的神经网络模型计算局部解释。根据用户定义的代价函数,例如解释长度,优化词汇子集以满足两个主要特征。同时在嵌入空间中确保预测不变性,该方法通过内隐命中集和最大通用子集两种解法得出结果,并可以配置不同的扰动集来检测预测结果的偏见,提高 NLP 解释框架的效果。最后,文章在 SST、Twitter 和 IMDB 数据集上对三种常用情感分析任务进行了评估,并展示了该框架的有效性。
May, 2021
本文探讨了一些适用于 CNN 文本分类的模型无关和模型特定解释方法,并进行了三次人类评估来揭示这些方法揭示模型行为、证明模型预测和帮助人类调查不确定预测的不同效果。结果表明,这些方法具有不同的性质,并且可以为每个目的提供帮助。
Aug, 2019