深度神经网络中每个神经元学习到的不同类型的特征的多方面可视化
本章介绍了一种神经科学方法 ——Activation Maximization(AM),利用机器学习技术综合推理神经元的首选刺激,以大力激发人造或生物大脑中的单个细胞或细胞组,并讨论了现有 AM 技术的概率解释和其在网络调试和解释方面的应用。
Apr, 2019
本文研究了 Deep Neural Networks (DNNs) 通过 Activation Maximization (AM) 方法学习的概念的语义特性,并介绍了一种在不改变模型架构或显著影响模型决策过程的情况下操纵特征可视化的新方法。我们评估了该方法在多个神经网络模型上的有效性,并展示了在模型审核过程中通过掩盖原始解释而隐藏特定神经元功能的能力。为了解决这个问题,我们提出了对抗此类操纵的一种保护措施,并提供了定量证据来支持我们的发现。
Jan, 2024
在神经网络中,单个神经元往往是 “可解释的”,因为它们代表了个别直观有意义的特征。然而,许多神经元表现出混合选择性,即它们代表多个不相关的特征。最近的假设提出深度网络中的特征可能通过多个神经元以非正交的方式进行 “叠加”,因为自然数据中可解释的特征数量通常大于给定网络中的神经元数量。因此,我们应该能够在激活空间中找到与个别神经元不一致的有意义方向。在这里,我们提出了(1)一种自动化方法,用于量化视觉可解释性,并与人类心理物理学对神经元可解释性的大型数据库验证,以及(2)一种在网络激活空间中找到有意义方向的方法。我们利用这些方法在卷积神经网络中发现了比个别神经元更具直观意义的方向,通过一系列分析进行了确认和调查。此外,我们将相同的方法应用于大脑中两个最近的视觉神经响应数据集,并发现我们的结论在大部分转移到真实神经数据上,这表明大脑可能使用了叠加。这也与去纠缠有关,并在人工和生物神经系统中提出了关于稳健、高效和分解表示的基本问题。
Oct, 2023
计算机视觉中可视化特征提供了一种将视觉模型的神经元信息分解解释的方法,我们的研究受到这一方法的启发并针对大型预训练语言模型进行了活化最大化的尝试;我们提出了特征文本化技术,用于提取预训练语言模型中神经元的知识表示,发现这些表示可以揭示关于神经元所编码的知识的见解,但神经元并不代表清晰的语言符号单元如词。
Nov, 2023
本文提出并演示了一种优化框架,用于操纵模型以达到欺骗解释的目的,并展示了一些流行的激活最大化解释技术的若干种可以被操纵以改变解释的方式,揭示了这些方法的可靠性。
Jun, 2023
在解释性人工智能方面,通过激活最大化可视化单元响应是一种被广泛应用的方法,而此研究测试了此方法是否能有效的帮助人们预测激活单元的变化,结果表明其在一定程度上有帮助,但并没有明显优势。
Jun, 2021
本文综述了通过 Activation Maximization、Network Inversion、Deconvolutional Neural Networks (DeconvNet) 以及 Network Dissection 等可视化手段实现 CNN 可解释性的方法,并探讨了这些方法在网络设计、优化和安全增强等领域中的实际应用价值。
Apr, 2018
通过激活最大化算法,使用深度生成网络为神经网络内部的感知器学习特征提供先验知识,可以生成高质量的合成图像和可解释的特征,同时作为一种高质量的生成方法。
May, 2016