InterpNET: 可解释深度学习的神经内视

NIPSOct, 2017

InterpNET: 可解释深度学习的神经内视

InterpNET: Neural Introspection for Interpretable Deep Learning

Shane Barratt

TL;DR本文提出了一种新的解释性神经网络框架，可以生成自然语言的分类解释，试图弥合人类推理和深度神经网络推理相差的鸿沟。该模型在 CUB 鸟类分类和解释数据集上获得了 METEOR 分数 37.9，为目前最高水平。

Abstract

Humans are able to explain their reasoning. On the contrary, deep neural networks are not. This paper attempts to bridge this gap by introducing a new way to design interpretable neural networks for classification

interpretable neural networks classification natural language explanations human visual system meteor score

发现论文，激发创造

这像那样：用深度学习进行可解释的图像识别

介绍了 ProtoPNet，一种深度神经网络架构，该模型通过识别图像的原型部分并将原型部分的证据结合起来，类似于鸟类学家、医生和其他人解决图像分类任务的方式，提供了一定程度的可解释性，并在 CUB-200-2011 数据集和 Stanford Cars 数据集上实现了可比较的准确性。

Jun, 2018

通过解释进行视觉说明：提高深度神经网络视觉反馈能力

本文提出了一种基于内部特征及可视化的方法，能够自动识别预先训练模型中与给定类相关的特征，以进行深度模型的解释和阐释，并且提出了一种针对 deconvNet 可视化操作引入的伪像问题的方法，同时还提出了一个专门用于视觉解释方法客观定量评估的数据集 an8Flower。实验证明，该方法在 MNIST、ILSVRC12、Fashion144k 和 an8Flower 数据集上能够产生具有良好主题相关特征覆盖的详细解释。

Dec, 2017

人工神经网络可解释性调研

该论文系统地回顾了近期研究的理解神经网络机理、解释深度学习应用特别是在医疗领域方面以及讨论了解释性研究的未来方向，如与模糊逻辑和脑科学的关系。

Jan, 2020

神经网络可解释性调查

本文综述了神经网络的可解释性研究，详细阐述了可解释性的定义、重要性、以及基于不同维度的新颖分类方法（如主动 / 被动解释方法、从局部到全局的解释等）。最后还总结了当前可解释性评估方法，并提出了新的研究方向。

Dec, 2020

深度学习的可视化可解释性调查

本文综述了解神经网络表示和学习可解释 / 解耦的中间层表示的最新研究进展，并重点介绍了卷积神经网络 (CNNs) 的可视化、诊断、解耦、学习及其在可解释人工智能方面的前景趋势。

Feb, 2018

迈向透明 AI：深度神经网络内部结构解释综述

本文回顾了超过 300 种内部可解释性技术，并引入了一种分类方法，介绍了它们对神经网络的什么部分（权重、神经元、子网络或潜在表示）进行解释，以及它们是在训练期间（内在）还是在训练后（事后）实现的。这篇文章强调了诊断、调试、敌对性和基准测试在未来研究中的重要性，以便使可解释性工具在实际应用中更有用。

Jul, 2022

无需训练数据，解释神经网络

本文介绍了一种机器学习任务来理解神经网络中的可解释函数，并将该框架扩展到标准和软决策树作为替代模型的情况，并通过考虑更现实的分布来生成训练数据来使其适用于更加现实的任务，并在实验中表明其具有优秀的性能。

Jun, 2022

基于深度学习的网络系统解释

本研究提出了 Metis 框架，改善了深度神经网络可解释性问题，通过决策树和超图等不同的解释方法，将 DNN 策略转换成易于理解的基于规则的控制器，并通过超图分析来突出重要组件。Metis 可帮助网络运营商设计、调试、部署和即时调整 DL 网络系统。

Oct, 2019

神经解释器的动态推理

本研究提出了一种名为神经解析器（Neural Interpreters）的架构，它将自我关注网络中的推理分解为一组模块，可以在宽度和深度上灵活地组成计算，并可在训练后进行容量扩展。我们的实验表明，该架构在图像分类和视觉抽象推理方面表现出了很高的性能，并能够很好地支持系统化的泛化。

Oct, 2021

神经文本分类的分层解释

本文提出了一种新的 Hierarchical INTerpretable 神经文本分类器 Hint，它可以自动生成按标签关联的话题的模型预测解释，实验结果表明 Hint 方法在文本分类方面不仅与现有的最先进的文本分类器相当，而且生成的解释比其他可解释的神经文本分类器更符合模型预测，并且更易于被人类理解。

Feb, 2022