神经元激活最大化的解释遭受对抗性攻击

Jun, 2023

神经元激活最大化的解释遭受对抗性攻击

Adversarial Attacks on the Interpretation of Neuron Activation Maximization

Geraldin Nanfack, Alexander Fulleringer, Jonathan Marty, Michael Eickenberg, Eugene Belilovsky

TL;DR本文提出并演示了一种优化框架，用于操纵模型以达到欺骗解释的目的，并展示了一些流行的激活最大化解释技术的若干种可以被操纵以改变解释的方式，揭示了这些方法的可靠性。

Abstract

The internal functional behavior of trained deep neural networks is notoriously difficult to interpret. activation-maximization approaches are one set of techniques used to interpret and analyze trained deep-lear

deep neural networks activation-maximization approaches interpretability methods deception cnns

发现论文，激发创造

通过渐变弹弓操控特征可视化

本文研究了 Deep Neural Networks (DNNs) 通过 Activation Maximization (AM) 方法学习的概念的语义特性，并介绍了一种在不改变模型架构或显著影响模型决策过程的情况下操纵特征可视化的新方法。我们评估了该方法在多个神经网络模型上的有效性，并展示了在模型审核过程中通过掩盖原始解释而隐藏特定神经元功能的能力。为了解决这个问题，我们提出了对抗此类操纵的一种保护措施，并提供了定量证据来支持我们的发现。

Jan, 2024

透過特徵視覺化理解神經網絡：一項調查

本章介绍了一种神经科学方法 ——Activation Maximization（AM），利用机器学习技术综合推理神经元的首选刺激，以大力激发人造或生物大脑中的单个细胞或细胞组，并讨论了现有 AM 技术的概率解释和其在网络调试和解释方面的应用。

Apr, 2019

利用深度生成网络合成神经网络内部神经元的首选输入

通过激活最大化算法，使用深度生成网络为神经网络内部的感知器学习特征提供先验知识，可以生成高质量的合成图像和可解释的特征，同时作为一种高质量的生成方法。

May, 2016

通过对抗模型操纵欺骗神经网络解释

本研究通过对神经网络解释方法进行对抗模型操纵，检验了其稳定性，并提出了两种欺骗类型 —— 被动和主动。研究结果指出，利用我们的模型欺骗方法，目前最先进的解释器都能轻松被骗过去。因此，神经网络解释方法的稳定性是开发出具有鲁棒性和可靠性的神经网络解释方法的重要标准。

Feb, 2019

深度神经网络中每个神经元学习到的不同类型的特征的多方面可视化

通过深度可视化技术，可以更好地了解深度神经网络。本文介绍了一种算法，通过合成每种类型的图像来清晰地揭示神经元的多重特征，并引入正则化方法使可视化结果更具解释性和清晰性。

Feb, 2016

利用对抗样本实现可解释的深度神经网络

本研究旨在通过减少神经元的不确定性，提高 DNNs 在整个图像空间的可解释性。通过提出一个新的度量方式、利用对抗样本发现学习后的神经元特征具有歧义性，以及通过一种有着一致性损失的对抗训练算法来提高对抗样本子集上的神经元的一致性

Jan, 2019

攻击遇上可解释性：基于特征的对抗样本检测

该论文提出基于解释性的对抗样本检测技术，通过对神经元的双向对应推断来对抗样本进行检测，实验表明该方法在检测 7 种不同类型的攻击时能够达到 94% 的准确率，误判率为 9.91%。

Oct, 2018

利用结构化背景知识和演绎推理理解 CNN 隐藏神经元激活

解释性人工智能中的一个重要挑战是如何正确解释隐藏神经元的激活：准确的解释可以揭示深度学习系统在输入上检测到的相关信息，解密了深度学习系统的黑盒特性。本文提供了一种基于大规模背景知识和概念归纳的符号推理方法的研究，旨在自动推断和验证隐藏神经元激活的解释，结果表明我们可以自动将背景知识的有意义标签附加到卷积神经网络的密集层的个体神经元上。

Aug, 2023

脉冲神经网络中神经元的快速无梯度激活最大化

通过构建一个反馈循环并利用低秩张量分解技术，我们成功设计了一个快速高效的优化方法，用于激活最大化的神经网络，并在人工脉冲神经网络上成功测试。

Dec, 2023

末隐藏层激活的非合理有效性对于对抗性稳健性的影响

研究了在输出层使用高温度值的激活函数对于防御基于梯度的对抗攻击的效果，并在 MNIST 数据集上实验验证了其方式可以显著提高对抗攻击的鲁棒性。

Feb, 2022