从白到黑：高效黑盒对抗攻击蒸馏

ACLApr, 2019

从白到黑：高效黑盒对抗攻击蒸馏

White-to-Black: Efficient Distillation of Black-Box Adversarial Attacks

Yotam Gil, Yoav Chai, Or Gorodissky, Jonathan Berant

TL;DR本研究通过训练一个能够模拟白盒攻击行为的更高效神经网络，证明了白盒攻击优化过程所隐含的知识可以被提取并泛化，可在黑盒情况下攻击 Google Perspective API 并暴露其脆弱性，扰乱 API 的预测结果，而人类对黄金标签的预测准确率仍然很高。

Abstract

adversarial examples are important for understanding the behavior of neural models, and can improve their robustness through adversarial training. Recent work in →

adversarial examples neural models adversarial training natural language processing white-box attack

发现论文，激发创造

高效率黑盒对抗样本查询（已被取代）

本文提出了一种新的方法，利用自然进化策略在黑盒攻击下生成可靠的对抗样本，并通过新的算法在部分信息下进行有针对性的攻击，无需使用梯度，可以使用少量的请求操作，成功地对商业部署的机器学习系统进行了第一次有针对性的攻击。

Dec, 2017

黑盒对抗攻击查询效率提升

本文提出了一种基于神经过程的黑盒对抗攻击方法（NP-Attack），利用神经过程对图像结构信息进行建模，以提高查询效率，实验结果表明，NP-Attack 能显著减少黑盒情况下的查询次数。

Sep, 2020

NATTACK：学习对深度神经网络实施更有效的黑盒攻击的对抗样本分布

本文提出一种黑盒对抗攻击算法，通过在输入的小区域内查找概率密度分布，不需要访问 DNN 的内部层或权重，实现了成功攻击不同神经网络的目标。此方法表现出色，可用于测试防御技术。结果表明，对抗训练仍然是最佳的防御技术之一。

May, 2019

关于字符级神经机器翻译的对抗样本

本研究提出了一种基于字符串编辑的白盒敌手算法，并在字符级别神经机器翻译模型中使用两种新类型的攻击来比较黑盒和白盒对抗例子的强度。该研究发现，白盒对抗例子在不同的攻击场景中都会显著强于黑盒对抗例子，并证明在对抗训练中取得了显著的鲁棒性提高。

Jun, 2018

主动学习实现的查询效率高的黑盒攻击

本文探究了 DNN 的黑盒攻击方案，使用现有的白盒攻击方法产生的采样样本进行训练替代模型，并提出主动学习策略和多样性准则以优化其表现，实验证明该方法可以将查询数量减少超过 90% 并保持黑盒攻击成功率。

Sep, 2018

机器学习的实用黑盒攻击

该研究介绍了一种利用黑盒攻击实现远程控制机器学习模型的方法，该攻击方式不需要了解模型内部或训练数据。研究表明该黑盒攻击策略可适用于许多机器学习技术，并且能够规避之前发现的防御策略。

Feb, 2016

灰盒对抗训练

本文介绍了对抗性训练及其在构建鲁棒模型方面的应用，提出了新型白盒和黑盒攻击，即灰盒对抗攻击，提出了一种新颖的模型鲁棒性评估方法，并提出了一种新型的对抗性训练：灰盒对抗训练，其使用模型的中间版本来引导敌手生成更加有效的对抗样本，实验证明此方面的成果优于传统方法。

Aug, 2018

混合批量攻击：使用有限查询找到黑盒对抗样本

通过使用本地模型的候选对抗性示例作为优化攻击的起点，并使用优化攻击中学习的标签来调整本地模型以查找转移候选项，我们提出了一种混合攻击策略，并引入了一种种子优先策略，从而使攻击者能够专注于最有前途的种子。结合我们的种子优先策略，混合攻击可以可靠地找到具有仅有少量查询的对抗性示例。

Aug, 2019

逆向工程黑盒神经网络

研究表明，通过一系列查询可以暴露神经网络的架构、优化程序或训练数据等属性，因此黑匣子神经网络更容易受到各种攻击，但该技术也可以用于更好地保护个人隐私。

Nov, 2017

计算机视觉中对抗攻击综述

深度神经网络被广泛用于各种下游任务，尤其是自动驾驶等安全关键场景，但深度网络常常受到对抗样本的威胁。对抗攻击可以分为白盒攻击和黑盒攻击，前者攻击者知道模型的参数和梯度，后者攻击者只能获取模型的输入和输出。攻击者的目的可以分为有目标攻击和非有目标攻击，黑盒设置是我们实践中会遇到的情况。

Aug, 2023