评估深度神经网络上对抗样本的威胁

ICMLOct, 2016

评估深度神经网络上对抗样本的威胁

Assessing Threat of Adversarial Examples on Deep Neural Networks

Abigail Graese, Andras Rozsa, Terrance E. Boult

TL;DR研究深度神经网络面临的潜在安全威胁 —— 对抗性样本，这些输入看起来很正常，但会导致深度神经网络错误分类；发现通过正常的图像获取进程实现的小扰动可以消除对抗性样本造成的影响，从而抵消了潜在威胁。同时，已经广泛使用的多次裁剪平均处理和正常预处理也可以在很大程度上消除对抗性样本。因此，该研究认为在文本分类中，对抗性样本仅仅是学术上的好奇现象，而非安全威胁。

Abstract

deep neural networks are facing a potential security threat from adversarial examples, inputs that look normal but cause an incorrect classification by the deep neural network. For example, the proposed threat co

deep neural networks adversarial examples security threat image acquisition text driven classification

发现论文，激发创造

深度学习中的对抗性示例：攻击与防御

本文研究深度学习中的对抗样本问题，总结了生成对抗样本的方法，提出了对抗样本的应用分类，并探讨了对抗样本的攻击和防御策略以及面临的挑战和潜在解决方案。

Dec, 2017

深度学习医学图像分析系统的对抗性攻击研究

医学深度学习系统可以被巧妙地构造对抗性例子攻击破坏，难以在实际临床设置中应用，本文发现医学深度学习模型对于对抗攻击比对自然图像模型更脆弱，但医学对抗攻击可以通过简单的检测器容易检测出来，这些发现可作为更可解释和安全的医学深度学习系统设计的依据。

Jul, 2019

深度网络的简单黑盒对抗扰动

研究表明，即使没有内部知识，对深度卷积神经网络进行黑盒攻击并制造对抗性样本是可行的，这暴露了深度神经网络的弱点，为设计安全的网络提供了检验。

Dec, 2016

自然语言处理中深度学习模型的对抗攻击调查

该研究综述了最近针对文本深度神经网络攻击的研究。通过研究，讨论了现有攻击对文本数据不可直接应用的问题，并提出了关于这个话题的建议。

Jan, 2019

废物利用：通过对抗样本抵抗对抗样本

通过在预先训练好的外部模型上找到敌对样本，我们将有害的攻击过程转化为有用的防御机制，并且我们的防御方法比先前的方法更为强大和经济。

Nov, 2019

使用自适应噪声降低在深度网络中检测对抗样本

该文章提出了一种直接部署到标准深度神经网络模型中的简单方法，通过引入两个经典图像处理技术，标量量化和平滑空间滤波，将图像中的扰动降低到最小，使用图像熵作为度量标准，可以有效地检测出对基于多种攻击技术的先进深度学习模型的 20,000 多个对抗样本，最终的实验结果表明，该检测方法可以取得 96.39％的高整体 F1 评分。

May, 2017

深度神经网络恶意软件分类的对抗扰动

该研究针对深度神经网络在恶意软件分类中存在的漏洞，通过对对抗样本进行有效构建的攻击，探讨如何构建在样本生成方面更具挑战性的更安全的模型。该研究表明，在对抗样本的制作方面，恶意软件分类与计算机视觉领域之间存在巨大的差异。本文还评估了潜在的防御机制对恶意软件分类的影响，并发现对抗样本的蒸馏和重新训练可以带来很有前途的结果。

Jun, 2016

深度学习在对抗环境中的局限性

本文介绍了一种基于对深度神经网络输入输出映射的精确理解的算法，用于制造可以轻易被误分类的针对深度神经网络的对抗样本，通过计算不同类型的样本之间的硬度度量对不同的类型的样本抗击抗性进行了评估，并提出了防御针对性攻击的初步方法。

Nov, 2015

物理世界中的对抗样本

本文研究表明即使在物理世界的情境下，机器学习系统仍然容易受到敌对样本的攻击，并通过将手机摄像头获取的对抗性图像输入 ImageNet Inception 分类器，并测量系统的分类精度来证明了这一点。

Jul, 2016

计算机视觉中深度学习对抗攻击威胁综述

本文综述了计算机视觉领域深度学习中的对抗攻击及其防御方法，包括攻击的设计、存在性和实际应用的评估，旨在提供更全面的研究方向展望及其实际意义。

Jan, 2018