从特征可视化到视觉电路：对抗模型操控的效果

Jun, 2024

从特征可视化到视觉电路：对抗模型操控的效果

From Feature Visualization to Visual Circuits: Effect of Adversarial Model Manipulation

Geraldin Nanfack, Michael Eickenberg, Eugene Belilovsky

TL;DR通过提出一种名为 ProxPulse 的新攻击方法，揭示了视觉电路的可操作性问题，这为深度神经网络的机械解释性提供了新的研究方向。

Abstract

Understanding the inner working functionality of large-scale deep neural networks is challenging yet crucial in several high-stakes applications. Mechanistic inter- pretability is an emergent field that tackles this challenge, often by identifying human-understandable subgraphs in deep neural networks known as circuits. In vision-pretrained models, these sub

deep neural networks mechanistic interpretability feature visualization visual circuits adversarial attacks

发现论文，激发创造

视觉电路的自动发现

基于视觉概念的神经元激活依赖和功能连接，我们提出了一种新的方法来提取深度视觉模型计算图的子图，从而防御大规模预训练模型的对抗攻击。

Apr, 2024

不要相信你的眼睛：特征可视化的（不）可靠性

通过对神经网络内部运作方式的可解释性实现可靠功能的可视化是建立在可重复连通性的基础之上，因此我们需要发展更可靠的特征可视化方法解释神经网络处理自然图像的能力。

Jun, 2023

通过对抗模型操纵欺骗神经网络解释

本研究通过对神经网络解释方法进行对抗模型操纵，检验了其稳定性，并提出了两种欺骗类型 —— 被动和主动。研究结果指出，利用我们的模型欺骗方法，目前最先进的解释器都能轻松被骗过去。因此，神经网络解释方法的稳定性是开发出具有鲁棒性和可靠性的神经网络解释方法的重要标准。

Feb, 2019

调查和揭示卷积神经网络对对抗扰动的特征级漏洞

通过对深度学习模型的不同层进行敌对性扰动攻击验证，研究表明浅层的通道组合对模型的干扰较大，在不同攻击类型中具有共享的易受攻击通道组合，而不同攻击对隐藏表示的影响存在差异且与卷积核大小呈正相关，以此为基础为未来应用开发高效的应对性防御机制奠定技术基础。

May, 2024

调查对抗扰动中隐藏的可识别人类特征

研究表明，神经网络在各种机器学习任务中表现出色，但仍然容易受到对抗性扰动的攻击。这篇论文探讨了对抗性攻击中人可识别特征的识别，并揭示了在无目标攻击和有目标攻击中出现的两种不同效应。通过提取像素级注释的特征，论文证明了这些特征能够破坏目标模型，并指出不同攻击算法在多个模型上平均后的扰动具有显著的相似性。该研究为更深入地理解对抗性攻击的机制及神经网络的防御策略提供了洞察。

Sep, 2023

通过特征操纵生成语义对抗样本

本文提出了一种实用的针对深度神经网络的对抗攻击方法，通过语义意义感知的结构化扰动来操纵图像的语义属性，以此生成针对黑盒分类器的对抗扰动，并提出了两种无监督的语义操作方法，通过在潜在空间中扰动单个或多个潜在因素，并在真实图像数据上进行大量实验，证明了其能力的强大性，同时也论证了普适于所有图像的语义对抗样本的存在。

Jan, 2020

通过对抗训练实现可解释的计算机视觉模型：揭示鲁棒性和可解释性的关联

通过对深度神经网络进行对抗训练，研究评估其对模型的鲁棒性和解释性的影响，证明了这两个问题之间的相关性。

Jul, 2023

克服基于敌对攻击的人在环应用

人类分析对深度神经网络的鲁棒性产生积极影响，尚未在对抗机器学习文献中得到很好的探究。人类视觉注意力模型可能会提高人 - 机图像分析系统的解释性和鲁棒性。虽然存在挑战，但需要进一步研究，以便选择适宜的可视化解释，以便图像分析员评估所给数据模型。

Jun, 2023

使用电路探针揭示变形金刚中的因果变量

神经网络模型在各种复杂任务上取得了高性能，但它们所实现的算法往往难以解释。我们提出了一种新的分析技术 —— 电路探测，通过自动发现计算假定的中间变量的低层电路，实现了对模型参数级别的有针对性的切割，从而开展因果分析。我们对简单算术任务上的模型应用了这种方法，证明了它在（1）解密模型所学习的算法，（2）揭示模型内部结构以及（3）追踪电路在训练过程中的发展方面的有效性。我们将电路探测与其他方法在这三个实验中进行比较，发现它在效果上与现有的分析方法相当甚至更加有效。最后，我们在一个真实的应用案例中演示了电路探测的应用，发现了在 GPT2-Small 和 Medium 模型中负责主谓一致和反身指代的电路。

Nov, 2023

适当的网络可解释性有助于分类的对抗鲁棒性

通过在 MNIST、CIFAR-10 和 Restricted ImageNet 上进行实验，本文在理论上证明了防止预测侵蚀性对抗攻击导致解释差异的正确解释度量是很困难的，并开发了一种仅基于促进稳健解释的解释敏感的防御方案。与对抗训练方法相比，在对大扰动攻击的抵抗中，本文的防御方法实现了稳健分类和稳健解释，表现优于最先进的对抗训练方法。

Jun, 2020