关于可证实解释性研究的探索

Oct, 2020

Towards falsifiable interpretability research

Matthew L. Leavitt, Ari Morcos

TL;DR本文介绍了深度神经网络的可解释性研究及其方法，指出目前的方法存在的局限和风险，并提出了以可证伪性为核心的新的研究框架，目的是为了产生更具意义和可靠的可解释性方法。

Abstract

Methods for understanding the decisions of and mechanisms underlying deep neural networks (DNNs) typically rely on building intuition by emphasizing sensory or semantic features of individual examples. For instance, methods aim to visualize the components of an input which are "important" to a network's decision, or to measure the semantic properties of sing

deep neural networks interpretability research saliency single-neuron-based approaches falsifiability

发现论文，激发创造

利用对抗样本实现可解释的深度神经网络

本研究旨在通过减少神经元的不确定性，提高 DNNs 在整个图像空间的可解释性。通过提出一个新的度量方式、利用对抗样本发现学习后的神经元特征具有歧义性，以及通过一种有着一致性损失的对抗训练算法来提高对抗样本子集上的神经元的一致性

Jan, 2019

迈向透明 AI：深度神经网络内部结构解释综述

本文回顾了超过 300 种内部可解释性技术，并引入了一种分类方法，介绍了它们对神经网络的什么部分（权重、神经元、子网络或潜在表示）进行解释，以及它们是在训练期间（内在）还是在训练后（事后）实现的。这篇文章强调了诊断、调试、敌对性和基准测试在未来研究中的重要性，以便使可解释性工具在实际应用中更有用。

Jul, 2022

人工神经网络可解释性调研

该论文系统地回顾了近期研究的理解神经网络机理、解释深度学习应用特别是在医疗领域方面以及讨论了解释性研究的未来方向，如与模糊逻辑和脑科学的关系。

Jan, 2020

机器学习方法应用于神经影像的可解释性

本篇论文介绍了最常见的解释性方法和评估可靠性的指标，并探讨了它们在神经影像学方面的应用和基准测试。

Apr, 2022

利用语义信息提高深度神经网络的可解释性

本文提出了一种新颖的技术，通过利用人类描述中蕴含的丰富语义信息来提高深度神经网络的可解释性，特别是在视频字幕任务中，通过一个可解释损失将人类描述中的一组语义相关主题集成到模型中，并提出了一种预测差异最大化算法来解释每个神经元的学习特征。实验结果表明这种方法在视频字幕和视频动作识别方面非常有效。

Mar, 2017

神经网络解释易受伤

本文探究了解释深度学习预测的方法对于随机扰动的敏感性，发现即使对于具有同一预测标签的两个感官不可分的输入，这些方法也会得出非常不同的解释结果，并分析了导致这种脆弱性的几何原因。

Oct, 2017

神经网络可解释性调查

本文综述了神经网络的可解释性研究，详细阐述了可解释性的定义、重要性、以及基于不同维度的新颖分类方法（如主动 / 被动解释方法、从局部到全局的解释等）。最后还总结了当前可解释性评估方法，并提出了新的研究方向。

Dec, 2020

走向完全可解释的深度神经网络：我们已经到达了吗？

本文提供了一个现有方法的回顾，以开发具有内在可解释性的 DNN，重点关注卷积神经网络 (CNNs)，旨在了解向完全可解释 DNN 的当前进展，并确定当前工作中的差距和潜在研究方向。

Jun, 2021

深度学习的可视化可解释性调查

本文综述了解神经网络表示和学习可解释 / 解耦的中间层表示的最新研究进展，并重点介绍了卷积神经网络 (CNNs) 的可视化、诊断、解耦、学习及其在可解释人工智能方面的前景趋势。

Feb, 2018

在人工和生物神经系统中识别可解释的视觉特征

在神经网络中，单个神经元往往是 “可解释的”，因为它们代表了个别直观有意义的特征。然而，许多神经元表现出混合选择性，即它们代表多个不相关的特征。最近的假设提出深度网络中的特征可能通过多个神经元以非正交的方式进行 “叠加”，因为自然数据中可解释的特征数量通常大于给定网络中的神经元数量。因此，我们应该能够在激活空间中找到与个别神经元不一致的有意义方向。在这里，我们提出了（1）一种自动化方法，用于量化视觉可解释性，并与人类心理物理学对神经元可解释性的大型数据库验证，以及（2）一种在网络激活空间中找到有意义方向的方法。我们利用这些方法在卷积神经网络中发现了比个别神经元更具直观意义的方向，通过一系列分析进行了确认和调查。此外，我们将相同的方法应用于大脑中两个最近的视觉神经响应数据集，并发现我们的结论在大部分转移到真实神经数据上，这表明大脑可能使用了叠加。这也与去纠缠有关，并在人工和生物神经系统中提出了关于稳健、高效和分解表示的基本问题。

Oct, 2023