神经网络可解释性调查

Dec, 2020

A Survey on Neural Network Interpretability

Yu Zhang, Peter Tiňo, Aleš Leonardis, Ke Tang

TL;DR本文综述了神经网络的可解释性研究，详细阐述了可解释性的定义、重要性、以及基于不同维度的新颖分类方法（如主动 / 被动解释方法、从局部到全局的解释等）。最后还总结了当前可解释性评估方法，并提出了新的研究方向。

Abstract

Along with the great success of deep neural networks, there is also growing concern about their black-box nature. The interpretability issue affects people's trust on deep learning systems. It is also related to

deep neural networks interpretability ethics algorithmic discrimination taxonomy

发现论文，激发创造

人工神经网络可解释性调研

该论文系统地回顾了近期研究的理解神经网络机理、解释深度学习应用特别是在医疗领域方面以及讨论了解释性研究的未来方向，如与模糊逻辑和脑科学的关系。

Jan, 2020

可解释的深度学习：解释、可解释性、可信度及其他

本文综述了神经网络的解释工具和算法，提出了一种新的分类方法，介绍了解释结果的评估方法和信任度算法的应用，讨论了深度模型解释与鲁棒性和借鉴解释的联系，并介绍了一些开源库。

Mar, 2021

深度学习的可视化可解释性调查

本文综述了解神经网络表示和学习可解释 / 解耦的中间层表示的最新研究进展，并重点介绍了卷积神经网络 (CNNs) 的可视化、诊断、解耦、学习及其在可解释人工智能方面的前景趋势。

Feb, 2018

迈向透明 AI：深度神经网络内部结构解释综述

本文回顾了超过 300 种内部可解释性技术，并引入了一种分类方法，介绍了它们对神经网络的什么部分（权重、神经元、子网络或潜在表示）进行解释，以及它们是在训练期间（内在）还是在训练后（事后）实现的。这篇文章强调了诊断、调试、敌对性和基准测试在未来研究中的重要性，以便使可解释性工具在实际应用中更有用。

Jul, 2022

解释型自然语言处理的本地解释概览

研究探讨了提高深度神经网络在自然语言处理（NLP）任务中的可解释性的各种方法，包括机器翻译和情感分析，并对术语 “可解释性” 及其各个方面进行了全面讨论。这项工作列举了与局部解释相关的各种方法，并将其分为三类：1）通过相关的输入特征解释模型的预测；2）通过自然语言解释进行解释；3）探查模型和单词表示的隐藏状态。

Mar, 2021

利用语义信息提高深度神经网络的可解释性

本文提出了一种新颖的技术，通过利用人类描述中蕴含的丰富语义信息来提高深度神经网络的可解释性，特别是在视频字幕任务中，通过一个可解释损失将人类描述中的一组语义相关主题集成到模型中，并提出了一种预测差异最大化算法来解释每个神经元的学习特征。实验结果表明这种方法在视频字幕和视频动作识别方面非常有效。

Mar, 2017

走向完全可解释的深度神经网络：我们已经到达了吗？

本文提供了一个现有方法的回顾，以开发具有内在可解释性的 DNN，重点关注卷积神经网络 (CNNs)，旨在了解向完全可解释 DNN 的当前进展，并确定当前工作中的差距和潜在研究方向。

Jun, 2021

深度神经网络的理解、可视化和解释调查

该篇论文综述了深度神经网络在机器学习中的应用，针对一些需要保证安全性的决策（如控制系统和医疗应用），介绍了当前解释性人工智能（XAI）领域的研究，探究和解释 DNNs 内部和整体行为的方法。

Feb, 2021

机器学习方法应用于神经影像的可解释性

本篇论文介绍了最常见的解释性方法和评估可靠性的指标，并探讨了它们在神经影像学方面的应用和基准测试。

Apr, 2022

可解释的人工智能：理解、可视化和解释深度学习模型

基于深度学习的解释性可视化方法在人工智能领域日益被重视，本文总结了目前解释深度学习模型的最新发展，并提出两种解释预测的方法，并将这些方法用于三个分类任务中进行评估。

Aug, 2017