通过对抗模型操纵欺骗神经网络解释

Feb, 2019

通过对抗模型操纵欺骗神经网络解释

Fooling Neural Network Interpretations via Adversarial Model Manipulation

Juyeon Heo, Sunghwan Joo, Taesup Moon

TL;DR本研究通过对神经网络解释方法进行对抗模型操纵，检验了其稳定性，并提出了两种欺骗类型 —— 被动和主动。研究结果指出，利用我们的模型欺骗方法，目前最先进的解释器都能轻松被骗过去。因此，神经网络解释方法的稳定性是开发出具有鲁棒性和可靠性的神经网络解释方法的重要标准。

Abstract

We ask whether the neural network interpretation methods can be fooled via adversarial model manipulation, which is defined as a model fine-tuning step that aims to radically alter the explanations without hurtin

neural network interpretation adversarial model manipulation saliency map fooling robustness

发现论文，激发创造

图像分类中的网络解释欺骗

本文提出了一种对抗性噪声网络攻击方法，有效地误导了深度神经网络，同时也改变了网络决策的解释算法，并引入一种控制条件测试神经网络解释算法准确性的方法，以促进更健壮的神经网络解释工具发展。

Dec, 2018

适当的网络可解释性有助于分类的对抗鲁棒性

通过在 MNIST、CIFAR-10 和 Restricted ImageNet 上进行实验，本文在理论上证明了防止预测侵蚀性对抗攻击导致解释差异的正确解释度量是很困难的，并开发了一种仅基于促进稳健解释的解释敏感的防御方案。与对抗训练方法相比，在对大扰动攻击的抵抗中，本文的防御方法实现了稳健分类和稳健解释，表现优于最先进的对抗训练方法。

Jun, 2020

神经网络对抗重编程

该研究提出使用单个对抗性扰动来重新编程目标模板，以执行攻击者选择的任务，即使模型没有为此任务进行训练，成功演示了多个模型的此类攻击。

Jun, 2018

通过随机化潜在表示欺骗文本欺骗者

通过随机化输入的潜在表示，我们提出了一个名为 AdvFooler 的轻量级、适应各种攻击方法的防御机制，主要目标是困惑生成对抗样本的过程，从而达到误导对手的效果，并在两个基准数据集上证明近乎最先进的防御能力。

Oct, 2023

从特征可视化到视觉电路：对抗模型操控的效果

通过提出一种名为 ProxPulse 的新攻击方法，揭示了视觉电路的可操作性问题，这为深度神经网络的机械解释性提供了新的研究方向。

Jun, 2024

使用 DeepFool 算法定制深度神经网络的针对性类别操控的对抗攻击

通过提出 “Targeted DeepFool” 算法，该研究通过在深度神经网络上训练特定的攻击样本来应对对抗攻击，以提高图像质量的完整性和准确性。

Oct, 2023

基于梯度的 NLP 模型分析易受操控

本文研究了神经网络自然语言处理模型的可解释性，特别是基于梯度的分析方法。我们发现，这些分析方法的梯度很容易被劫持，具有误导性。结合多项自然语言处理任务的实验结果，本文提出一种基于覆盖层的方法来干扰和欺骗这些梯度。

Oct, 2020

SemanticAdv: 基于属性条件图像编辑的生成对抗样本方法

本研究旨在探索语义干扰对深度神经网络预测结果的影响，并通过提出的算法 SemanticAdv 来生成对各种 “对抗性” 目标偏离的扰动，从而欺骗深度神经网络。实验结果表明，具有控制语义干扰的对抗性例子不仅可以迷惑不同的学习任务，还可以对抗基于迁移的真实世界黑盒服务。

Jun, 2019

神经元激活最大化的解释遭受对抗性攻击

本文提出并演示了一种优化框架，用于操纵模型以达到欺骗解释的目的，并展示了一些流行的激活最大化解释技术的若干种可以被操纵以改变解释的方式，揭示了这些方法的可靠性。

Jun, 2023

通过预测和解释来提高模型的稳健性的对抗训练

本文提出了一种名为 FLAT 的特征级对抗性训练方法，该方法旨在通过正则化全局词重要性分数来调节模型在替换词及其同义词的原始 / 对抗性示例对中的理解保持一致，从而提高模型对预测和解释方面的鲁棒性。

Mar, 2022