逆向工程黑盒神经网络

ICLRNov, 2017

Towards Reverse-Engineering Black-Box Neural Networks

Seong Joon Oh, Max Augustin, Bernt Schiele, Mario Fritz

TL;DR研究表明，通过一系列查询可以暴露神经网络的架构、优化程序或训练数据等属性，因此黑匣子神经网络更容易受到各种攻击，但该技术也可以用于更好地保护个人隐私。

Abstract

Many deployed learned models are black boxes: given input, returns output. Internal information about the model, such as the architecture, optimisation procedure, or training data, is not disclosed explicitly as

learned models black boxes neural networks vulnerability adversarial examples

发现论文，激发创造

计算机视觉模型的黑盒对抗攻击综述

该论文介绍了对各种黑盒对抗攻击和防御技术的全面比较研究，旨在提高模型的鲁棒性。

Dec, 2019

黑盒对抗攻击查询效率提升

本文提出了一种基于神经过程的黑盒对抗攻击方法（NP-Attack），利用神经过程对图像结构信息进行建模，以提高查询效率，实验结果表明，NP-Attack 能显著减少黑盒情况下的查询次数。

Sep, 2020

从白到黑：高效黑盒对抗攻击蒸馏

本研究通过训练一个能够模拟白盒攻击行为的更高效神经网络，证明了白盒攻击优化过程所隐含的知识可以被提取并泛化，可在黑盒情况下攻击 Google Perspective API 并暴露其脆弱性，扰乱 API 的预测结果，而人类对黄金标签的预测准确率仍然很高。

Apr, 2019

具有查询次数和信息限制的黑盒对抗攻击

本文通过定义三种现实世界分类系统的威胁模型（查询限制，部分信息和仅标签），并开发了新的攻击方法，成功的攻击了一个 ImageNet 分类器，并成功的突破了 Google Cloud Vision API 的限制来进行有针对性的黑盒攻击。

Apr, 2018

副通道攻击破坏嵌入式人工智能的黑箱特性

通过利用边信道攻击以提取 logits，我们提出了一种架构无关的黑盒攻击方法用于生成具有欺骗性的对抗样本，以证明边信道攻击在攻击神经网络时的有效性。

Nov, 2023

机器学习的实用黑盒攻击

该研究介绍了一种利用黑盒攻击实现远程控制机器学习模型的方法，该攻击方式不需要了解模型内部或训练数据。研究表明该黑盒攻击策略可适用于许多机器学习技术，并且能够规避之前发现的防御策略。

Feb, 2016

评分黑盒模型的对抗鲁棒性

研究了深度神经网络对抗攻击的鲁棒性，提出了一种适用于黑盒模型的简单评分方法，并发现更鲁棒的模型具有更小的 LIME 权重 l1 范数和更锐利的解释。

Oct, 2022

具有有限信息和数据的黑盒检测后门攻击

该论文提出一种基于黑盒模型的反向工程优化算法，用于检测深度神经网络中嵌入的恶意后门攻击，并通过检测结果进行有效的可靠预测，实验表明其可以有效地应对多种后门攻击。

Mar, 2021

针对 DNN 的实用无盒对抗攻击

通过使用少量的样本，本研究提出了三种机制进行训练，其中原型重建是最有效的，生成的对抗性样本可成功地转移至各种图像分类和面部验证模型，最终的应用结果显示我们的方法能够显著降低商业名人识别系统的预测准确率近 15.4％。

Dec, 2020

主动学习实现的查询效率高的黑盒攻击

本文探究了 DNN 的黑盒攻击方案，使用现有的白盒攻击方法产生的采样样本进行训练替代模型，并提出主动学习策略和多样性准则以优化其表现，实验证明该方法可以将查询数量减少超过 90% 并保持黑盒攻击成功率。

Sep, 2018