MeaeQ：高效查询挂载模型抽取攻击

EMNLPOct, 2023

MeaeQ：高效查询挂载模型抽取攻击

MeaeQ: Mount Model Extraction Attacks with Efficient Queries

Chengwei Dai, Minxuan Lv, Kun Li, Wei Zhou

TL;DR我们提出了 MeaeQ（具有高效查询的模型提取攻击），一种简单而有效的方法来解决自然语言处理（NLP）中的模型提取攻击问题。通过结合 API 服务信息，我们利用零样本序列推理分类器从公共文本语料库中过滤任务相关数据，而不是使用问题特定领域的数据集。此外，我们使用基于聚类的数据减少技术来获取攻击的查询的代表性数据。我们在四个基准数据集上进行的大量实验证明，MeaeQ 在需要更少查询的同时，与受攻击模型具有更高的功能相似性。

Abstract

We study model extraction attacks in natural language processing (NLP) where attackers aim to steal victim models by repeatedly querying the open Application Programming Interfaces (→

model extraction attacks natural language processing apis meaeq clustering-based data reduction

发现论文，激发创造

自监督语音模型的模型提取攻击

本文提出了一种利用自我监督学习预训练和主动采样的方法，只使用查询访问功能对小规模语音模型进行对抗攻击模型提取，实验结果表明，该采样方法可以有效地提取目标模型，而不需要知道其模型架构。

Nov, 2022

模型提取攻击再审视

模型提取攻击是对机器学习即服务（MLaaS）平台的机器学习模型功能性进行 “窃取” 的主要威胁，本文通过综合多个角度对当前 MLaaS 平台的模型提取漏洞进行了深入研究，揭示了漏洞的演化规律，并提出了一些提高 MLaaS 的安全性的建议。

Dec, 2023

MEAOD：针对目标检测器的模型提取攻击

对目标检测模型进行基于查询的模型提取攻击的挑战和可行性进行研究，提出了一种名为 MEAOD 的有效攻击方法，通过主动学习从攻击者拥有的数据集中选择样本构建高效的查询数据集，并通过更新查询数据集的标注来提高提取效果，在 10k 查询预算下，达到超过 70% 的提取性能。

Dec, 2023

Sesame Street 上的盗贼！BERT-based API 的模型提取

该研究探讨了自然语言处理中模型提取的问题，结果表明，在具有查询访问权限的情况下，攻击者可以使用任意的打乱语序的字串以及特定启发式方法从模型中提取出相应模型的本地副本，通过使用预先训练好的 NLP 模型，使用转移学习的方法，他们在各种类型的 NLP 任务上展现出了攻击的有效性。而防范措施则徒劳无功。

Oct, 2019

MLaaS 范式中的模型提取警告

该研究提出了一种基于云的提取监视器，通过观察单个和串通的对手用户的查询和响应流来量化模型的提取状态，从而使用信息增益来测量具有不断增加查询数量的用户的模型学习速率，并维护智能查询摘要以在串通存在的情况下测量与输入特征空间覆盖度相关的学习速率，以提醒模型所有者可能存在侵犯攻击。

Nov, 2017

通过利用公共数据提取深度神经网络的框架

使用主动学习和大规模公共数据集的模型提取框架，可以通过黑盒访问从图像和文本领域的各种数据集中训练出的深度分类器，其中仅使用其 30%（30,000 个样本）的数据集。

May, 2019

超越标签神谕：窃取机器学习模型的意义是什么？

以查询访问方式为前提设计的模型提取攻击旨在通过机器学习即服务提供商所提供的 API 获取已训练模型，该攻击的主要动机在于以比重新训练模型更低的成本获取模型。然而，我们的研究显示，攻击者常常无法节约数据采集和标注成本，并且攻击成功与攻击者的先验知识密切相关。因此，对于预算有限但仍想要开发具有相同能力的模型的攻击者而言，模型提取攻击的实际意义值得商榷。最终，我们提出了一种评估攻击策略的基准方案，明确将先验知识的影响与攻击策略分离。

Oct, 2023

MEGEX：基于梯度的可解释人工智能无数据模型提取攻击

本文提出了 MEGEX，针对一种梯度可解释人工智能的数据自由模型提取攻击。攻击者使用解释结果来训练生成模型以减少查询次数，可以在不准备输入数据的情况下成功窃取训练好的模型。实验表明，在 SVHN 和 CIFAR-10 数据集上，给定 200 万和 2000 万个查询，我们提出的方法可以重构高准确度的模型，分别是受害模型准确度的 0.97 倍和 0.98 倍，这暗示着模型的可解释性和难以窃取之间存在折衷。

Jul, 2021

SATML 语言模型数据提取挑战中针对 GPT-Neo 的有目标攻击

应用有针对性的数据提取攻击考察了 SATML2023 语言模型训练数据提取挑战，并通过两步骤的方法成功地从中提取了样本，其中第一步骤成功提取 69％的样本的后缀；接着，使用基于分类器的成员推断攻击对生成式进行检测，其 AutoSklearn 分类器在 10% 的误报率下达到了 0.841 的准确率，相对于基线提高了 34％，完整方法在 10％误报率下以 0.405 召回率得分，研究表明大型语言模型容易受到数据提取攻击，其隐私风险需要引起重视。

Feb, 2023

QUEEN: 模型抽取的查询反学习

QUEEN 是一种针对模型提取攻击的反击方法，通过敏感度测量和输出扰动来限制潜在威胁的出现，并且在单个敏感的查询批次上应用查询去学习，以减少攻击的学习准确性。

Jul, 2024