检测来自伪像的对抗性样本

ICMLMar, 2017

Detecting Adversarial Samples from Artifacts

Reuben Feinman, Ryan R. Curtin, Saurabh Shintre, Andrew B. Gardner

TL;DR本文介绍了一种利用深度学习神经网络中 Bayesian 不确定性估计和密度估计的方法，可以实现对于对抗样本的检测，具有很好的泛化性能，并在标准分类任务上取得了 85-93% 的 ROC-AUC 表现。

Abstract

deep neural networks (DNNs) are powerful nonlinear architectures that are known to be robust to random perturbations of the input. However, these models are vulnerable to adversarial perturbations--small input ch

deep neural networks adversarial perturbations bayesian uncertainty estimates implicit adversarial detection standard classification tasks

发现论文，激发创造

通过模型突变测试实现深度神经网络的对抗样本检测

该研究提出了一种使用统计学假设检验和模型变化测试的敏感性测量方法，以在运行时检测基于 MNIST 和 CIFAR10 数据集的最新攻击方法生成的对抗样本的方法。结果表明，该方法可以高效准确地检测出对抗样本。

Dec, 2018

高效的对抗攻击防御

本文提出了一种基于实践观察的新的防御方法，旨在强化深度神经网络的结构，提高其预测稳定性，从而更难受到针对性攻击，并在多种攻击实验中证明了该方法的有效性，相比其他防御方法具有更好的表现，而且在训练过程中的开销几乎可以忽略不计。

Jul, 2017

深度学习在对抗环境中的局限性

本文介绍了一种基于对深度神经网络输入输出映射的精确理解的算法，用于制造可以轻易被误分类的针对深度神经网络的对抗样本，通过计算不同类型的样本之间的硬度度量对不同的类型的样本抗击抗性进行了评估，并提出了防御针对性攻击的初步方法。

Nov, 2015

使用自适应噪声降低在深度网络中检测对抗样本

该文章提出了一种直接部署到标准深度神经网络模型中的简单方法，通过引入两个经典图像处理技术，标量量化和平滑空间滤波，将图像中的扰动降低到最小，使用图像熵作为度量标准，可以有效地检测出对基于多种攻击技术的先进深度学习模型的 20,000 多个对抗样本，最终的实验结果表明，该检测方法可以取得 96.39％的高整体 F1 评分。

May, 2017

具有对抗鲁棒性的深度神经网络及其在恶意软件检测中的应用

提出了一种新的对抗样本解决方案，该方案通过随机破坏样本中的特征，阻止攻击者构建有影响力的对抗样本，从而显著提高深度神经网络对抗样本的鲁棒性，同时保持高分类准确性。

Oct, 2016

无监督模型解释技术检测对抗样本

本文提出一种使用模型解释方法检测异常样例的无监督方法，并在 MNIST 数据集上展现了该方法高效检测最先进算法所产生的对手样本。

Jul, 2021

使用扩散模型的威胁模型不可知对抗性防御

本文介绍了一种在各种威胁模型下生成鲁棒分类器的方法，该方法利用了随机生成建模的最新进展，并利用条件分布采样。通过在被攻击的图像上添加高斯独立同分布噪声，然后进行预训练扩散过程，该方法表现出了可观的鲁棒性。该鲁棒性在 CIFAR-10 数据集上经过了广泛的实验验证，表明我们的方法在各种威胁模型下优于主要的防御方法。

Jul, 2022

检测对抗性扰动

本文提出一种方法，在深度神经网络中增加一个小的 “检测器” 子网络，用于区分含有敌对扰动的假数据和不包含敌对扰动的真数据的二元分类任务，并证明其能够有效检测和对抗敌对扰动攻击。

Feb, 2017

CAAD 2018: 迭代性集成对抗攻击

本文提出了一种针对图像分类器集合的迭代式对抗攻击方法，通过此方法，在 CAAD 2018 针对性对抗攻击竞赛中获得第五名，该方法提高了黑匣子对抗攻击的成功率。

Nov, 2018

对抗性对齐：打破攻击强度和其对人类感知的相关性之间的权衡

通过研究和比较多种神经网络，本文发现随着图片识别准确度的提高，对抗性攻击虽然越来越容易使模型改变分类决策，但同时攻击的特征也越来越远离与人类视觉识别相关的特征，即使人工以同样方式造成的影响。而通过神经协调器网络的训练，可以使神经网络更加接近人类视觉识别应有模式，从而提高对抗性攻击下的鲁棒性。

Jun, 2023