通过代表性替换理解单方向的重要性
本研究介绍了 Network Dissection 方法,通过为深度视觉表示的单元提供标签来解释网络。该方法量化了CNN表示的可解释性,通过评估单个隐藏单元和一组视觉语义概念之间的对齐来识别最佳对齐,认定单位为人类可解释标签。研究发现,深度网络是比预期更加透明和可解释的,并且可用于提供CNN对图像的解释预测,以增强其可解释性,这是深度神经网络的重要属性,提供了对其分层结构的新的洞见。
Nov, 2017
本文综述了解神经网络表示和学习可解释/解耦的中间层表示的最新研究进展,并重点介绍了卷积神经网络 (CNNs) 的可视化、诊断、解耦、学习及其在可解释人工智能方面的前景趋势。
Feb, 2018
通过研究不同种类的数据集上的深度神经网络,发现其依赖单方向的能力是其泛化性能的良好指标,并且批处理归一化可减少单方向的依赖性,但单方向的选择性对任务重要性的预测不佳。
Mar, 2018
本文研究了卷积神经网络(CNN)中个体单元对视觉识别的重要性。作者通过单元切除实验发现,单独切除某些单元会对某些特定类别的分类准确度造成重大影响,而单元属性如类别选择性和权重L1规范对整体准确度的影响却不明显。通过实验,我们证明了选择性高的单元对网络分类能力在单个类别层面上具有重要作用。
Jun, 2018
本研究通过理论和算法对同一结构但训练自不同初始化的两个深度神经网络学习出的神经元激活子空间匹配进行研究,提出了最大匹配和简单匹配的核心概念,并发现了在子空间匹配方面,从不同初始化训练的网络中学习出的卷积层表示并不像普遍预期的那样相似。
Oct, 2018
本文介绍了一个分析框架——网络分解,通过该框架系统地识别图像分类和图像生成网络中单个隐藏单元的语义,作者使用该框架分析卷积神经网络和生成对抗网络模型并应用于理解对抗攻击和语义图像编辑。
Sep, 2020
本文介绍了一个交互式框架i-Algebra,它是一个首创的库,由原子、可组合的操作符组成,通过使用声明性查询语言,用户可以构建不同的分析工具,包括“钻取”,“比较”,“假设分析”等,用户研究表明,i-Algebra具有良好的可用性,其在深度神经网络的解释性方面有着广泛的应用。
Jan, 2021
本文回顾了超过300种内部可解释性技术,并引入了一种分类方法,介绍了它们对神经网络的什么部分(权重、神经元、子网络或潜在表示)进行解释,以及它们是在训练期间(内在)还是在训练后(事后)实现的。这篇文章强调了诊断、调试、敌对性和基准测试在未来研究中的重要性,以便使可解释性工具在实际应用中更有用。
Jul, 2022
在神经网络中,单个神经元往往是“可解释的”,因为它们代表了个别直观有意义的特征。然而,许多神经元表现出混合选择性,即它们代表多个不相关的特征。最近的假设提出深度网络中的特征可能通过多个神经元以非正交的方式进行“叠加”,因为自然数据中可解释的特征数量通常大于给定网络中的神经元数量。因此,我们应该能够在激活空间中找到与个别神经元不一致的有意义方向。在这里,我们提出了(1)一种自动化方法,用于量化视觉可解释性,并与人类心理物理学对神经元可解释性的大型数据库验证,以及(2)一种在网络激活空间中找到有意义方向的方法。我们利用这些方法在卷积神经网络中发现了比个别神经元更具直观意义的方向,通过一系列分析进行了确认和调查。此外,我们将相同的方法应用于大脑中两个最近的视觉神经响应数据集,并发现我们的结论在大部分转移到真实神经数据上,这表明大脑可能使用了叠加。这也与去纠缠有关,并在人工和生物神经系统中提出了关于稳健、高效和分解表示的基本问题。
Oct, 2023