黑盒对抗攻击的有状态检测

Jul, 2019

Stateful Detection of Black-Box Adversarial Attacks

Steven Chen, Nicholas Carlini, David Wagner

TL;DR本文研究了针对机器学习分类器的对抗样本和逃逸攻击问题，探讨了基于有状态的防御方法，并介绍了新的攻击方式。

Abstract

The problem of adversarial examples, evasion attacks on machine learning classifiers, has proven extremely difficult to solve. This is tru

发现论文，激发创造

机器学习系统面临着对抗性示例的威胁，尽管在受限的黑盒条件下攻击成功率令人担忧。本研究旨在对有状态防御进行理论描述，提供了攻击检测和假阳性率之间的权衡的上限，并分析了特征提取器 / 底层问题域的性质对此权衡的影响。通过在多个数据集和有状态防御上进行实证评估，支撑了我们的理论发现。

Jul, 2023

本文提出了一种新的方法，利用自然进化策略在黑盒攻击下生成可靠的对抗样本，并通过新的算法在部分信息下进行有针对性的攻击，无需使用梯度，可以使用少量的请求操作，成功地对商业部署的机器学习系统进行了第一次有针对性的攻击。

Dec, 2017

本文通过定义三种现实世界分类系统的威胁模型（查询限制，部分信息和仅标签），并开发了新的攻击方法，成功的攻击了一个 ImageNet 分类器，并成功的突破了 Google Cloud Vision API 的限制来进行有针对性的黑盒攻击。

Apr, 2018

该论文介绍了对各种黑盒对抗攻击和防御技术的全面比较研究，旨在提高模型的鲁棒性。

Dec, 2019

本文探究了 DNN 的黑盒攻击方案，使用现有的白盒攻击方法产生的采样样本进行训练替代模型，并提出主动学习策略和多样性准则以优化其表现，实验证明该方法可以将查询数量减少超过 90% 并保持黑盒攻击成功率。

Sep, 2018

本论文提出了一种新颖的防御方法来对抗黑盒攻击，通过针对每个查询使用一个针对攻击者目标优化的原始样本的对抗反案例来对抗黑盒查询，有效地为防御者引入了不对称性，从而既有效地误导了攻击者寻找对抗样本的搜索，又保持了模型对合法输入的准确性，并且适用于多种类型的攻击。

Mar, 2024

本文提出了一种基于数据推动的黑客攻击方法 —— 基于分类模型的欺骗方法，并通过 Google Cloud Prediction 平台进行了实验验证，发现分类器天生易受攻击，并且可以轻松地进行逃避攻击，这为构建安全的机器学习框架提供了启示。

Mar, 2017

本文提出了一种训练方法来防止黑盒学习系统受到对抗性示例的攻击，该方法通过在输出类集中增加一个 NULL 标签并训练分类器将对抗性示例分类为 NULL 来阻止其可转让性。实验表明该方法能够有效抵御对抗性示例的攻击，同时在干净数据上保持准确度。

Mar, 2017

本文提出了一种基于神经过程的黑盒对抗攻击方法（NP-Attack），利用神经过程对图像结构信息进行建模，以提高查询效率，实验结果表明，NP-Attack 能显著减少黑盒情况下的查询次数。

Sep, 2020

本文旨在评估最先进的人脸识别模型在基于决策的黑盒攻击环境下的鲁棒性能，并提出一种新的进化攻击算法以减少搜索空间维度，实验结果表明该方法能够在较少的查询次数内诱导输入的最小扰动，并成功地用于攻击一个真实的人脸识别系统。

Apr, 2019