神经网络自然语言处理的事后可解释性:一项综述
研究探讨了提高深度神经网络在自然语言处理(NLP)任务中的可解释性的各种方法,包括机器翻译和情感分析,并对术语 “可解释性” 及其各个方面进行了全面讨论。这项工作列举了与局部解释相关的各种方法,并将其分为三类:1)通过相关的输入特征解释模型的预测;2)通过自然语言解释进行解释;3)探查模型和单词表示的隐藏状态。
Mar, 2021
本文概述了新兴的解释型 AI 领域,着重介绍了 “事后” 解释,从理论和比较评估的角度对解释算法进行测试并总结最佳应用实践,在代表性应用场景中成功使用可解释的 AI,并讨论其未来挑战和方向。
Mar, 2020
本篇论文介绍了基于反向传播、扰动和近似等后处理方法的时间序列模型后解释的广泛范围。我们提出了内在可解释模型的新颖类别,并介绍了用于说明的常见评估指标及时间序列可解释性问题未来研究的方向。
May, 2023
该研究通过一个基于随机抽样的实验,旨在检验基于显著性的事后可解释性方法在自然语言处理中的有效性,结果表明,人类往往会倾向于较少批判性地接受该类解释。
Nov, 2022
评估 LIME 和 SHAP 两种常用工具的用户可理解性和可预测性,发现 SHAP 对于接近模型决策边界的样本提供的解释可理解性显著降低。此外,发现反事实解释和错误分类可以显著增加用户对机器学习模型决策的理解。根据研究结果,提出为未来的事后解释方法提供增加可理解性和可预测性的设计建议。
Sep, 2023
通过引入一种后置方法,我们解释了卷积神经网络的整个特征提取过程,并包含了一组通过众包活动和自然语言处理技术提取并处理的文本标签,在多幅图像中聚合标签以生成全局解释。
May, 2024
本文提出了一种新的解释性方法框架,它在拟合先验知识与解释可解释性目标之间增加了兼容性项,并在反事实解释上实例化了提出的形式化方法,称为知识整合反事实解释(KICE)。
Apr, 2022
提出了自说明模型的三个特点 —— 显式性,忠诚度和稳定性,旨在落实模型可解释性并实现复杂模型的解释性,通过特定模型的正则化实现忠诚度和稳定性的要求,实验结果表明,该框架为解决模型的复杂性和可解释性困境提供了一个有前途的方向。
Jun, 2018