检测对抗样本的早期方法

ICLRAug, 2016

Early Methods for Detecting Adversarial Images

Dan Hendrycks, Kevin Gimpel

TL;DR本研究使用三种方法检测机器学习分类器所遭受的对抗性扰动，其中最佳检测方法显示对抗性图像在 PCA 下的低排名主要成分上存在异常强调。

Abstract

Many machine learning classifiers are vulnerable to adversarial perturbations. An adversarial perturbation modifies an input to change a classifier's prediction without causing the input to seem substantially dif

machine learning classifiers adversarial perturbations detection methods principal components

发现论文，激发创造

检测对抗性扰动

本文提出一种方法，在深度神经网络中增加一个小的 “检测器” 子网络，用于区分含有敌对扰动的假数据和不包含敌对扰动的真数据的二元分类任务，并证明其能够有效检测和对抗敌对扰动攻击。

Feb, 2017

使用显著性检测来检测对抗扰动

该论文提出了一种新的检测对抗样本的方法，通过训练一个使用原始数据和显著性数据的二元分类器。该方法在检测对抗扰动方面表现良好。他们定量评估了检测器的泛化性能，表明在具有强对手的训练下，检测器在弱对手方面表现良好。

Mar, 2018

使用自适应噪声降低在深度网络中检测对抗样本

该文章提出了一种直接部署到标准深度神经网络模型中的简单方法，通过引入两个经典图像处理技术，标量量化和平滑空间滤波，将图像中的扰动降低到最小，使用图像熵作为度量标准，可以有效地检测出对基于多种攻击技术的先进深度学习模型的 20,000 多个对抗样本，最终的实验结果表明，该检测方法可以取得 96.39％的高整体 F1 评分。

May, 2017

物理世界中的对抗样本

本文研究表明即使在物理世界的情境下，机器学习系统仍然容易受到敌对样本的攻击，并通过将手机摄像头获取的对抗性图像输入 ImageNet Inception 分类器，并测量系统的分类精度来证明了这一点。

Jul, 2016

对抗性攻击如何干扰表面稳定准确的分类器

通过对高维度输入数据的实践系统进行观察，我们展示了对于那些容易构建的对抗性攻击及其对大多数模型的威胁性，以及随机扰动的鲁棒性同时易受影响的基本特性，证实了这一现象。然而，令人惊讶的是，即使对于分类器决策边界与训练和测试数据之间只有很小的边距，也很难通过随机取样的扰动来检测到对抗性示例，因此需要更严格的对抗性训练。

Sep, 2023

对抗样本是噪声下测试误差的自然结果

该研究提供了实证和理论证据表明对抗鲁棒性和图像损坏鲁棒性研究项目之间存在紧密联系，从而建议未来的对抗性防御应该考虑评估它们的方法对分布转移的鲁棒性。

Jan, 2019

关于（统计）检测对抗样本的研究

本文研究如何检测机器学习中的对抗性样本，提出使用统计检验和模型增强的方法来识别对抗性样本，并参照多个数据集和对抗样本制作方法进行实验，结果表明统计学特性对于检测对抗性样本至关重要。

Feb, 2017

基于显著性的防御对抗样本的方法（SAD）

本研究提出了一种基于视觉显著性的方法，用于清理受对抗性攻击影响的数据。该模型利用对抗性图像的显著区域提供有针对性的对策，并在相对减少清理后图像的损失的同时，通过评估各种指标的准确性来证明它的有效性。

Mar, 2020

图像分类中的对抗机器学习：从防御者的视角进行调查

这篇论文探讨了深度学习在图像分类中的安全问题，介绍了针对对抗攻击和对抗防御的新分类方法，提供了研究者需要考虑的相关指导，并讨论了未来研究的方向。

Sep, 2020

废物利用：通过对抗样本抵抗对抗样本

通过在预先训练好的外部模型上找到敌对样本，我们将有害的攻击过程转化为有用的防御机制，并且我们的防御方法比先前的方法更为强大和经济。

Nov, 2019