模型提取攻击的有状态检测

Jul, 2021

Stateful Detection of Model Extraction Attacks

Soham Pal, Yash Gupta, Aditya Kanade, Shirish Shevade

TL;DR本研究提出 VarDetect，一个可用于追踪 API 用户查询分布并检测模型提取攻击的有状态监视器。VarDetect 使用经过改进的变分自编码器学习潜在的查询分布并可有效地检测三种类型的攻击者样本。此外，VarDetect 也能被部署为自动防御机制，进一步保护机器学习模型不被攻击者提取。

Abstract

Machine-Learning-as-a-Service providers expose machine learning (ML) models through application programming interfaces (apis) to developers. Recent work has shown that attackers can exploit these →

machine learning apis attack detection variational autoencoder defense mechanism

发现论文，激发创造

MLaaS 范式中的模型提取警告

该研究提出了一种基于云的提取监视器，通过观察单个和串通的对手用户的查询和响应流来量化模型的提取状态，从而使用信息增益来测量具有不断增加查询数量的用户的模型学习速率，并维护智能查询摘要以在串通存在的情况下测量与输入特征空间覆盖度相关的学习速率，以提醒模型所有者可能存在侵犯攻击。

Nov, 2017

PRADA: DNN 模型盗窃攻击防护

本文描述了一种新型机器学习模型抽取攻击的方法，并提出了一种名为 PRADA 的检测模型抽取攻击的方法，该方法可以准确检测到之前的模型抽取攻击，且无误报。

May, 2018

通过预测 API 窃取机器学习模型

本研究探究了机器学习模型机密性和公共访问之间的紧张关系，针对在线服务（如 BigML 和 Amazon Machine Learning）中的普通模型类，研究了一些简单有效的攻击方法和相应的反攻击策略。

Sep, 2016

通过利用公共数据提取深度神经网络的框架

使用主动学习和大规模公共数据集的模型提取框架，可以通过黑盒访问从图像和文本领域的各种数据集中训练出的深度分类器，其中仅使用其 30%（30,000 个样本）的数据集。

May, 2019

目标检测情境下的零数据模型提取攻击

通过生成器人工策划的查询，对于第一次扩展到用于预测物体检测中的边界框坐标的回归问题的黑盒子攻击，提出了一个无数据模型提取技术，发现定义损失函数和使用新型生成器设置是提取目标模型的关键。所提出的模型提取方法通过合理的查询取得了显著的结果，该物体检测漏洞的发现将有助于未来保护这类模型的前景。

Aug, 2023

朝着可扩展和鲁棒的模型版本控制

研究了在不获取新的训练数据或更改模型架构的情况下生成具有不同攻击属性的模型的可行性，通过将参数化的隐藏分布纳入模型训练数据，强迫模型学习任务无关的特征，从而设计和实现了一种用于 DNN 分类器的实用模型版本控制方法，提高了鲁棒性。

Jan, 2024

变分模型反演攻击

本研究提供了深度学习中一种重要的隐私保护策略，即基于变分自编码器和生成模型的攻击方法，可以更加准确地生成包含敏感数据的样本，并保持样本的多样性和真实性。

Jan, 2022

超越标签神谕：窃取机器学习模型的意义是什么？

以查询访问方式为前提设计的模型提取攻击旨在通过机器学习即服务提供商所提供的 API 获取已训练模型，该攻击的主要动机在于以比重新训练模型更低的成本获取模型。然而，我们的研究显示，攻击者常常无法节约数据采集和标注成本，并且攻击成功与攻击者的先验知识密切相关。因此，对于预算有限但仍想要开发具有相同能力的模型的攻击者而言，模型提取攻击的实际意义值得商榷。最终，我们提出了一种评估攻击策略的基准方案，明确将先验知识的影响与攻击策略分离。

Oct, 2023

条件变分自编码器进行异常检测

本文探讨了如何使用变分贝叶斯和变分自编码器（VAEs）进行异常检测（AD）任务，提出了一个新的方法来处理具有层次结构的数据。该方法在经典机器学习基准测试和监测 CERN 大型强子对撞机（LHC）实验的触发系统等应用中表现出卓越的性能。

Oct, 2020

LatentPoison - 针对潜在空间的对抗性攻击

研究深度变分自编码器的潜在空间的稳健性，证明可以扰动潜在空间并使分类概率近乎相等，从而保证解码器输出不受攻击影响。

Nov, 2017