攻击遇上可解释性：基于特征的对抗样本检测

NIPSOct, 2018

攻击遇上可解释性：基于特征的对抗样本检测

Attacks Meet Interpretability: Attribute-steered Detection of Adversarial Samples

Guanhong Tao, Shiqing Ma, Yingqi Liu, Xiangyu Zhang

TL;DR该论文提出基于解释性的对抗样本检测技术，通过对神经元的双向对应推断来对抗样本进行检测，实验表明该方法在检测 7 种不同类型的攻击时能够达到 94% 的准确率，误判率为 9.91%。

Abstract

adversarial sample attacks perturb benign inputs to induce dnn misbehaviors. Recent research has demonstrated the widespread presence and the devastating consequences of such attacks. Existing defense techniques

adversarial sample attacks dnn interpretability face recognition detection technique

发现论文，激发创造

面部属性：准确性和对抗鲁棒性

本文研究了利用深度神经网络提取面部特征的鲁棒性，通过生成对抗性样本测试了多种算法的可靠性，并提出了自然对抗样本的概念，发现即使在经过多次训练的情况下，网络仍然存在一些本该被正确分类的对抗样本。

Jan, 2018

高效的对抗攻击防御

本文提出了一种基于实践观察的新的防御方法，旨在强化深度神经网络的结构，提高其预测稳定性，从而更难受到针对性攻击，并在多种攻击实验中证明了该方法的有效性，相比其他防御方法具有更好的表现，而且在训练过程中的开销几乎可以忽略不计。

Jul, 2017

PASA: 使用预测和归因敏感性分析的攻击不可知的无监督对抗检测

深度神经网络在分类方面容易受到对抗性攻击影响，本文提出了一种基于特征归因的方法来检测对抗样本，其能够可靠地检测到对抗样本，并在性能上优于目前最先进的统计无监督对抗检测器。

Apr, 2024

人脸识别领域中卷积神经网络的对抗性攻击

本文以 Fast Gradient Sign Method 为基础，对面部图像数据集进行扰动，测试不同黑盒攻击算法的鲁棒性，并重点研究修改单个最佳像素或所有像素的攻击方法。研究结果表明，所有像素攻击方法能使分类器置信度平均下降至 84％，且 81.6％的误分类率，但这些图像始终可以被人类识别。该研究可为防御性对抗攻击、自适应噪声降低技术等方面的 DNNs 训练和研究提供宝贵的参考。

Jan, 2020

检测来自伪像的对抗性样本

本文介绍了一种利用深度学习神经网络中 Bayesian 不确定性估计和密度估计的方法，可以实现对于对抗样本的检测，具有很好的泛化性能，并在标准分类任务上取得了 85-93% 的 ROC-AUC 表现。

Mar, 2017

对抗性对齐：打破攻击强度和其对人类感知的相关性之间的权衡

通过研究和比较多种神经网络，本文发现随着图片识别准确度的提高，对抗性攻击虽然越来越容易使模型改变分类决策，但同时攻击的特征也越来越远离与人类视觉识别相关的特征，即使人工以同样方式造成的影响。而通过神经协调器网络的训练，可以使神经网络更加接近人类视觉识别应有模式，从而提高对抗性攻击下的鲁棒性。

Jun, 2023

利用对抗样本实现可解释的深度神经网络

本研究旨在通过减少神经元的不确定性，提高 DNNs 在整个图像空间的可解释性。通过提出一个新的度量方式、利用对抗样本发现学习后的神经元特征具有歧义性，以及通过一种有着一致性损失的对抗训练算法来提高对抗样本子集上的神经元的一致性

Jan, 2019

基于因果分析的归因检测对抗样本

使用涉及一系列方法来解释机器学习模型的决策，研究表明这种方法可以用于确定高属性特征的影响并检测出恶意攻击。

Mar, 2019

面部属性是否具有对抗性鲁棒性？

通过无需预训练或数据集增强的深度卷积神经网络，本研究提出了一种简单且有效的自动面部特征提取解决方案，并在 CelebA 数据集上获得了最新的面部特征分类结果。研究者还通过引入营造自然对抗样本的概念，证明了对于某些特征，深度卷积神经网络对于对抗性输入是鲁棒的，而对于其他特征则不是。

May, 2016

调查对抗扰动中隐藏的可识别人类特征

研究表明，神经网络在各种机器学习任务中表现出色，但仍然容易受到对抗性扰动的攻击。这篇论文探讨了对抗性攻击中人可识别特征的识别，并揭示了在无目标攻击和有目标攻击中出现的两种不同效应。通过提取像素级注释的特征，论文证明了这些特征能够破坏目标模型，并指出不同攻击算法在多个模型上平均后的扰动具有显著的相似性。该研究为更深入地理解对抗性攻击的机制及神经网络的防御策略提供了洞察。

Sep, 2023