PRADA: DNN 模型盗窃攻击防护

May, 2018

PRADA: Protecting against DNN Model Stealing Attacks

Mika Juuti, Sebastian Szyller, Samuel Marchal, N. Asokan

TL;DR本文描述了一种新型机器学习模型抽取攻击的方法，并提出了一种名为 PRADA 的检测模型抽取攻击的方法，该方法可以准确检测到之前的模型抽取攻击，且无误报。

Abstract

machine learning (ML) applications are increasingly prevalent. Protecting the confidentiality of ML models becomes paramount for two reasons: (a) a model can be a business advantage to its owner, and (b) an adversary may use a stolen model to find transferable →

machine learning model extraction adversarial examples prediction apis prada

发现论文，激发创造

通过预测 API 窃取机器学习模型

本研究探究了机器学习模型机密性和公共访问之间的紧张关系，针对在线服务（如 BigML 和 Amazon Machine Learning）中的普通模型类，研究了一些简单有效的攻击方法和相应的反攻击策略。

Sep, 2016

目标检测情境下的零数据模型提取攻击

通过生成器人工策划的查询，对于第一次扩展到用于预测物体检测中的边界框坐标的回归问题的黑盒子攻击，提出了一个无数据模型提取技术，发现定义损失函数和使用新型生成器设置是提取目标模型的关键。所提出的模型提取方法通过合理的查询取得了显著的结果，该物体检测漏洞的发现将有助于未来保护这类模型的前景。

Aug, 2023

通过利用公共数据提取深度神经网络的框架

使用主动学习和大规模公共数据集的模型提取框架，可以通过黑盒访问从图像和文本领域的各种数据集中训练出的深度分类器，其中仅使用其 30%（30,000 个样本）的数据集。

May, 2019

复杂 DNN 模型的提取：真正的威胁还是鬼话？

本文研究机器学习模型的保护问题，重点探讨了模型抽取攻击的威胁性，并提出一种基于区分恶意和良性查询的防御方法

Oct, 2019

超越标签神谕：窃取机器学习模型的意义是什么？

以查询访问方式为前提设计的模型提取攻击旨在通过机器学习即服务提供商所提供的 API 获取已训练模型，该攻击的主要动机在于以比重新训练模型更低的成本获取模型。然而，我们的研究显示，攻击者常常无法节约数据采集和标注成本，并且攻击成功与攻击者的先验知识密切相关。因此，对于预算有限但仍想要开发具有相同能力的模型的攻击者而言，模型提取攻击的实际意义值得商榷。最终，我们提出了一种评估攻击策略的基准方案，明确将先验知识的影响与攻击策略分离。

Oct, 2023

MEGEX：基于梯度的可解释人工智能无数据模型提取攻击

本文提出了 MEGEX，针对一种梯度可解释人工智能的数据自由模型提取攻击。攻击者使用解释结果来训练生成模型以减少查询次数，可以在不准备输入数据的情况下成功窃取训练好的模型。实验表明，在 SVHN 和 CIFAR-10 数据集上，给定 200 万和 2000 万个查询，我们提出的方法可以重构高准确度的模型，分别是受害模型准确度的 0.97 倍和 0.98 倍，这暗示着模型的可解释性和难以窃取之间存在折衷。

Jul, 2021

使用自适应虚假信息防御模型窃取攻击

该研究提出了采用自适应误导的方法抵御深度神经网络模型盗窃攻击，并针对现有所有模型盗窃攻击均使用 Out-Of-Distribution 输入进行了阐述，提出选择性错误预测的方法以显著降低攻击者克隆模型的准确率，同时最小化对良性用户准确率的影响，这种防御具有更好的安全性和准确度平衡，并且计算开销最小。

Nov, 2019

预测污染：针对 DNN 模型窃取攻击的防御

本文介绍了一种主动防御机制，针对深度神经网络模型窃取攻击进行干扰预测的方法，可有效应对多种难缠的数据集和攻击类型，并且表现出更优越的效果。

Jun, 2019

图神经网络上的对抗型模型提取

本文提出了在基于图神经网络的机器学习模型中进行模型抽取的方法，以解决对关系数据中的深度神经网络进行攻击的问题。

Dec, 2019

深度学习模型中的安全与隐私挑战

深度学习模型在多个领域取得了巨大的成功，但研究发现这些模型存在各种攻击，会危及模型的安全性和数据隐私，特别是模型抽取攻击、模型反转攻击和对抗攻击。这篇论文研究了这些攻击以及它们对深度学习模型的影响。

Nov, 2023