迈向透明 AI：深度神经网络内部结构解释综述

Jul, 2022

迈向透明 AI：深度神经网络内部结构解释综述

Toward Transparent AI: A Survey on Interpreting the Inner Structures of Deep Neural Networks

Tilman Räuker, Anson Ho, Stephen Casper, Dylan Hadfield-Menell

TL;DR本文回顾了超过 300 种内部可解释性技术，并引入了一种分类方法，介绍了它们对神经网络的什么部分（权重、神经元、子网络或潜在表示）进行解释，以及它们是在训练期间（内在）还是在训练后（事后）实现的。这篇文章强调了诊断、调试、敌对性和基准测试在未来研究中的重要性，以便使可解释性工具在实际应用中更有用。

Abstract

The last decade of machine learning has seen drastic increases in scale and capabilities. deep neural networks (DNNs) are increasingly being deployed in the real world. However, they are difficult to analyze, raising concerns about using them without a rigorous understanding of how the

deep neural networks interpretability taxonomy adversarial robustness continual learning

发现论文，激发创造

走向完全可解释的深度神经网络：我们已经到达了吗？

本文提供了一个现有方法的回顾，以开发具有内在可解释性的 DNN，重点关注卷积神经网络 (CNNs)，旨在了解向完全可解释 DNN 的当前进展，并确定当前工作中的差距和潜在研究方向。

Jun, 2021

人工神经网络可解释性调研

该论文系统地回顾了近期研究的理解神经网络机理、解释深度学习应用特别是在医疗领域方面以及讨论了解释性研究的未来方向，如与模糊逻辑和脑科学的关系。

Jan, 2020

深度学习的可视化可解释性调查

本文综述了解神经网络表示和学习可解释 / 解耦的中间层表示的最新研究进展，并重点介绍了卷积神经网络 (CNNs) 的可视化、诊断、解耦、学习及其在可解释人工智能方面的前景趋势。

Feb, 2018

深度神经网络的理解、可视化和解释调查

该篇论文综述了深度神经网络在机器学习中的应用，针对一些需要保证安全性的决策（如控制系统和医疗应用），介绍了当前解释性人工智能（XAI）领域的研究，探究和解释 DNNs 内部和整体行为的方法。

Feb, 2021

神经网络可解释性调查

本文综述了神经网络的可解释性研究，详细阐述了可解释性的定义、重要性、以及基于不同维度的新颖分类方法（如主动 / 被动解释方法、从局部到全局的解释等）。最后还总结了当前可解释性评估方法，并提出了新的研究方向。

Dec, 2020

可解释的深度学习：解释、可解释性、可信度及其他

本文综述了神经网络的解释工具和算法，提出了一种新的分类方法，介绍了解释结果的评估方法和信任度算法的应用，讨论了深度模型解释与鲁棒性和借鉴解释的联系，并介绍了一些开源库。

Mar, 2021

深入探索神经影像中可解释深度学习的综合调查

本文综述了神经影像领域中可解释深度学习模型的当前状态和应用，讨论了其相关方法、挑战和意见，以及如何利用模型解释性捕捉与模型预测相关的解剖和功能性大脑变化，最后讨论了当前做法的局限性，并提供了有关如何引导未来研究方向以使深度学习模型更加可解释并推进对脑疾病科学理解的宝贵见解和指导。

Jul, 2023

利用语义信息提高深度神经网络的可解释性

本文提出了一种新颖的技术，通过利用人类描述中蕴含的丰富语义信息来提高深度神经网络的可解释性，特别是在视频字幕任务中，通过一个可解释损失将人类描述中的一组语义相关主题集成到模型中，并提出了一种预测差异最大化算法来解释每个神经元的学习特征。实验结果表明这种方法在视频字幕和视频动作识别方面非常有效。

Mar, 2017

可解释的人工智能：理解、可视化和解释深度学习模型

基于深度学习的解释性可视化方法在人工智能领域日益被重视，本文总结了目前解释深度学习模型的最新发展，并提出两种解释预测的方法，并将这些方法用于三个分类任务中进行评估。

Aug, 2017

利用对抗样本实现可解释的深度神经网络

本研究旨在通过减少神经元的不确定性，提高 DNNs 在整个图像空间的可解释性。通过提出一个新的度量方式、利用对抗样本发现学习后的神经元特征具有歧义性，以及通过一种有着一致性损失的对抗训练算法来提高对抗样本子集上的神经元的一致性

Jan, 2019