黑匣子攻击评估中的陷阱

Oct, 2023

SoK: Pitfalls in Evaluating Black-Box Attacks

Fnu Suya, Anshuman Suri, Tingwei Zhang, Jingtao Hong, Yuan Tian...

TL;DR通过对威胁模型建立一个新的分类系统，本研究揭示了各种黑盒攻击的未被充分探索的威胁空间，强调了对攻击成功率进行更真实评估的重要性。

Abstract

Numerous works study black-box attacks on image classifiers. However, these works make different assumptions on the adversary's knowledge and current literature lacks a cohesive organization centered around the <

black-box attacks threat model taxonomy adversary's knowledge attack success

发现论文，激发创造

具有查询次数和信息限制的黑盒对抗攻击

本文通过定义三种现实世界分类系统的威胁模型（查询限制，部分信息和仅标签），并开发了新的攻击方法，成功的攻击了一个 ImageNet 分类器，并成功的突破了 Google Cloud Vision API 的限制来进行有针对性的黑盒攻击。

Apr, 2018

计算机视觉模型的黑盒对抗攻击综述

该论文介绍了对各种黑盒对抗攻击和防御技术的全面比较研究，旨在提高模型的鲁棒性。

Dec, 2019

子空间攻击：利用有前途的子空间进行查询高效黑盒攻击

本文介绍如何在黑箱攻击中利用参考模型的梯度来降低查询复杂度，提高黑箱攻击的效率和成功率，实验结果表明，与现有技术相比，本文提出的方法可以在查询数量上获得 2x 到 4x 的降低，并且具有更低的失败率。

Jun, 2019

分析对抗样本：一个研究对手知识的框架

对于机器学习模型而言，对抗性样本是指触发误分类的恶意输入。我们发现当进行攻击时，对抗者的知识缺乏研究和形式化，导致攻击研究领域在威胁模型和攻击方法上非常复杂且难以比较。本研究在图像分类领域提供了一个受序理论启发的理论框架来研究对抗者的知识，同时提出了一个受密码学游戏启发的对抗性样本游戏来标准化攻击。通过对最近的图像分类领域攻击进行整理和分类，我们从中总结出攻击者的知识，既验证了关于对抗者知识的现有观点，如受攻击模型信息的重要性，也得出了新的结论，例如白盒和可传递威胁模型的困难程度可能没有之前想象的那么高。

Feb, 2024

对分类器的查询限制黑盒攻击

本文研究了针对机器学习分类器的黑盒攻击，其中每个向模型的查询都会给对手带来一些代价或检测风险。我们的重点是将查询次数最小化作为主要目标。具体而言，我们考虑了在最小化查询次数的同时遵守特征修改成本预算的机器学习分类器攻击问题。我们描述了一种利用贝叶斯优化来最小化查询次数的方法，并发现，在特征修改成本预算较低的情况下，与随机策略相比，查询次数可以减少到大约原来的十分之一。

Dec, 2017

不破碎鸡蛋逃避黑盒分类器

本文研究了利用黑盒分类器生成对抗性样本的基于决策的规避攻击，认为以查询次数作为攻击代价的度量方法是有缺陷的，因为对流程进行审查的系统检测到的查询是对称成本的。因此需要构建更加对称的攻击来更加有效地攻击安全关键系统。

Jun, 2023

在防御系统中的提示注入攻击

通过三层防御机制，本研究调查了对大型语言模型的黑盒攻击方法，分析了这些攻击所带来的挑战和重要性，评估了现有攻击和防御方法的有效性和适用性，并特别关注了黑盒攻击的检测算法，用于识别语言模型中的危险漏洞和获取敏感信息，提出了一种对大型语言模型进行黑盒攻击的漏洞检测方法和防御策略的开发。

Jun, 2024

基于硬标签的小样本黑盒对抗攻击

提出了一种新的针对硬标签的黑盒攻击的优化方法，利用经预训练的替代模型指导优化过程，实验证明该方法在不同目标模型架构下显著提高了攻击的查询效率，攻击成功率较基准测试提高了约 5 倍，特别是在 100 和 250 个查询预算下。

Mar, 2024

QAIR: 实用的查询效率高的黑盒攻击图像检索

本研究通过 Quantifying the Attack Effects on the Partial Retrieved List 方法，提出了第一种针对黑盒情况下图片检索的基于查询的攻击（QAIR）方法，并采用了新的基于相关性的损失设计和递归模型窃取方法，通过少量请求，成功地欺骗了 Bing 视觉搜索这样的商业系统。

Mar, 2021

基于数据的黑盒分类器探索性攻击在对抗领域中的应用

本文提出了一种基于数据推动的黑客攻击方法 —— 基于分类模型的欺骗方法，并通过 Google Cloud Prediction 平台进行了实验验证，发现分类器天生易受攻击，并且可以轻松地进行逃避攻击，这为构建安全的机器学习框架提供了启示。

Mar, 2017