文本分类可解释性技术的诊断研究
计算机视觉模型的决策过程(尤其是深度神经网络)的不透明性意味着这些决策无法被人类理解。因此,在过去几年中,已经提出了许多提供人理解解释的方法。本文针对图像分类开发了新的评估指标,并对常见的显著性方法在 ImageNet 上进行了基准测试。此外,还提出了一种基于心理测评概念的可靠性评估方案。
Jun, 2024
本文基于对解释人工智能(XAI)的准确定义和公正衡量标准缺失的讨论,提出了一种广泛的实验研究,重点关注解释方法的忠实度、本地化、假阳性、敏感度检查和稳定性。实验结果表明,在当前所有方法中,梯度加权类激活映射(Grad-CAM)和随机输入抽样解释(RISE)在大多数指标上表现良好。另外,本文还提出了一种筛选指标的方法,以诊断模型分类基础,并探讨了当前指标所忽略的测量因素。
Dec, 2020
通过研究用于文本数据的基于显著性的解释,本研究调查了多种因素(如输入,解释和可视化方式)对普通人理解解释的影响,并发现类似单词长度等表面和不相关的因素会影响解释的理解,但通过基于模型评估的方法,可以提高人们的理解能力。
Jan, 2022
通过众包方法,我们提出了一种新的基于人类的自然语言处理(NLP)显著性方法评估方法,对七种显著性方法在两个数据集上进行了实证评估,与现有的自动评估方法进行了对比,发现了 NLP 和计算机视觉(CV)领域在使用显著性方法时存在显著差异。
May, 2024
该研究通过一个基于随机抽样的实验,旨在检验基于显著性的事后可解释性方法在自然语言处理中的有效性,结果表明,人类往往会倾向于较少批判性地接受该类解释。
Nov, 2022
本文探讨了一些适用于 CNN 文本分类的模型无关和模型特定解释方法,并进行了三次人类评估来揭示这些方法揭示模型行为、证明模型预测和帮助人类调查不确定预测的不同效果。结果表明,这些方法具有不同的性质,并且可以为每个目的提供帮助。
Aug, 2019
通过用户研究,本研究评估了可解释人工智能在实际场景中对人类决策的改进效果,结果发现虽然解释有助于用户更准确地描述模型,但对于模型选择和反事实模拟这两个任务,并没有找到使用任何显著改进的证据,这表明对基于显著性的解释的实用性和可能的误解需要谨慎对待。
Dec, 2023
本文对几种显著性方法进行实验和理论探索,提出用可行的方法来评估一种方法所能提供和不能提供的解释类型。实验证明,有些现有的显著性方法具有独立性,这些方法不受模型和数据生成过程的影响,因此,那些未通过所提出测试的方法,对于对数据或模型敏感的任务( 如在数据中找到异常值,解释模型所学到的输入和输出之间的关系以及调试模型)是不适当的。与边缘检测类比,本文发现一些显著性方法无需训练数据或模型就能有效实现其功能。
Oct, 2018