Jan, 2024

通过渐变弹弓操控特征可视化

TL;DR本文研究了 Deep Neural Networks (DNNs) 通过 Activation Maximization (AM) 方法学习的概念的语义特性,并介绍了一种在不改变模型架构或显著影响模型决策过程的情况下操纵特征可视化的新方法。我们评估了该方法在多个神经网络模型上的有效性,并展示了在模型审核过程中通过掩盖原始解释而隐藏特定神经元功能的能力。为了解决这个问题,我们提出了对抗此类操纵的一种保护措施,并提供了定量证据来支持我们的发现。