神经网络自然语言处理的事后可解释性：一项综述

Aug, 2021

神经网络自然语言处理的事后可解释性：一项综述

Post-hoc Interpretability for Neural NLP: A Survey

Andreas Madsen, Siva Reddy, Sarath Chandar

TL;DR本文主要讨论了近期后续方法如何向人类传达模型解释的分类，深入讨论了每种方法及其验证过程。

Abstract

neural networks for nlp are becoming increasingly complex and widespread, and there is a growing concern if these models are responsible to use. Explaining models helps to address the safety and ethical concerns

neural networks interpretability post-hoc methods nlp validation

发现论文，激发创造

解释型自然语言处理的本地解释概览

研究探讨了提高深度神经网络在自然语言处理（NLP）任务中的可解释性的各种方法，包括机器翻译和情感分析，并对术语 “可解释性” 及其各个方面进行了全面讨论。这项工作列举了与局部解释相关的各种方法，并将其分为三类：1）通过相关的输入特征解释模型的预测；2）通过自然语言解释进行解释；3）探查模型和单词表示的隐藏状态。

Mar, 2021

深度神经网络及其相关方法和应用综述

本文概述了新兴的解释型 AI 领域，着重介绍了 “事后” 解释，从理论和比较评估的角度对解释算法进行测试并总结最佳应用实践，在代表性应用场景中成功使用可解释的 AI，并讨论其未来挑战和方向。

Mar, 2020

时间序列深度模型解释：一份综述

本篇论文介绍了基于反向传播、扰动和近似等后处理方法的时间序列模型后解释的广泛范围。我们提出了内在可解释模型的新颖类别，并介绍了用于说明的常见评估指标及时间序列可解释性问题未来研究的方向。

May, 2023

使用随机调查实验测试基于显著性的可解释性在自然语言处理中的有效性

该研究通过一个基于随机抽样的实验，旨在检验基于显著性的事后可解释性方法在自然语言处理中的有效性，结果表明，人类往往会倾向于较少批判性地接受该类解释。

Nov, 2022

事后 XAI 方法中的可预测性与可理解性：用户中心分析

评估 LIME 和 SHAP 两种常用工具的用户可理解性和可预测性，发现 SHAP 对于接近模型决策边界的样本提供的解释可理解性显著降低。此外，发现反事实解释和错误分类可以显著增加用户对机器学习模型决策的理解。根据研究结果，提出为未来的事后解释方法提供增加可理解性和可预测性的设计建议。

Sep, 2023

可解释的网络可视化：基于人机协同的 CNN 图像分类后续解释方法

通过引入一种后置方法，我们解释了卷积神经网络的整个特征提取过程，并包含了一组通过众包活动和自然语言处理技术提取并处理的文本标签，在多幅图像中聚合标签以生成全局解释。

May, 2024

深度神经网络解释

研究了两种深度神经网络解释说明的主流方向，一种是基于特征的事后解释方法，另一种是自解释的神经网络模型，并生成自然语言解释。

Oct, 2020

如何验证事后解释方法？你能信赖解释吗？

为了让人工智能系统得到广泛的公众认可，我们必须开发能够解释黑匣子模型（如神经网络）决策的方法。

Oct, 2019

整合先前知识的事后解释

本文提出了一种新的解释性方法框架，它在拟合先验知识与解释可解释性目标之间增加了兼容性项，并在反事实解释上实例化了提出的形式化方法，称为知识整合反事实解释（KICE）。

Apr, 2022

自解释神经网络的稳健可解释性研究

提出了自说明模型的三个特点 —— 显式性，忠诚度和稳定性，旨在落实模型可解释性并实现复杂模型的解释性，通过特定模型的正则化实现忠诚度和稳定性的要求，实验结果表明，该框架为解决模型的复杂性和可解释性困境提供了一个有前途的方向。

Jun, 2018