QUEEN: 模型抽取的查询反学习

Jul, 2024

QUEEN: Query Unlearning against Model Extraction

Huajie Chen, Tianqing Zhu, Lefeng Zhang, Bo Liu, Derui Wang...

TL;DRQUEEN 是一种针对模型提取攻击的反击方法，通过敏感度测量和输出扰动来限制潜在威胁的出现，并且在单个敏感的查询批次上应用查询去学习，以减少攻击的学习准确性。

Abstract

model extraction attacks currently pose a non-negligible threat to the security and privacy of deep learning models. By querying the model with a small dataset and usingthe query results as the ground-truth label

model extraction attacks deep learning models adversary queen counterattacks

发现论文，激发创造

MLaaS 范式中的模型提取警告

该研究提出了一种基于云的提取监视器，通过观察单个和串通的对手用户的查询和响应流来量化模型的提取状态，从而使用信息增益来测量具有不断增加查询数量的用户的模型学习速率，并维护智能查询摘要以在串通存在的情况下测量与输入特征空间覆盖度相关的学习速率，以提醒模型所有者可能存在侵犯攻击。

Nov, 2017

PRADA: DNN 模型盗窃攻击防护

本文描述了一种新型机器学习模型抽取攻击的方法，并提出了一种名为 PRADA 的检测模型抽取攻击的方法，该方法可以准确检测到之前的模型抽取攻击，且无误报。

May, 2018

超越标签神谕：窃取机器学习模型的意义是什么？

以查询访问方式为前提设计的模型提取攻击旨在通过机器学习即服务提供商所提供的 API 获取已训练模型，该攻击的主要动机在于以比重新训练模型更低的成本获取模型。然而，我们的研究显示，攻击者常常无法节约数据采集和标注成本，并且攻击成功与攻击者的先验知识密切相关。因此，对于预算有限但仍想要开发具有相同能力的模型的攻击者而言，模型提取攻击的实际意义值得商榷。最终，我们提出了一种评估攻击策略的基准方案，明确将先验知识的影响与攻击策略分离。

Oct, 2023

难以忘怀：基于认证机器遗忘的毒化攻击

本文研究用户信息的删除和机器去学习概念，阐述了目前保证用户隐私的方法以及可能出现的潜在攻击方式，其中特别探讨了有意设计的训练数据能触发完全重新训练的中毒攻击。

Sep, 2021

MeaeQ：高效查询挂载模型抽取攻击

我们提出了 MeaeQ（具有高效查询的模型提取攻击），一种简单而有效的方法来解决自然语言处理（NLP）中的模型提取攻击问题。通过结合 API 服务信息，我们利用零样本序列推理分类器从公共文本语料库中过滤任务相关数据，而不是使用问题特定领域的数据集。此外，我们使用基于聚类的数据减少技术来获取攻击的查询的代表性数据。我们在四个基准数据集上进行的大量实验证明，MeaeQ 在需要更少查询的同时，与受攻击模型具有更高的功能相似性。

Oct, 2023

目标检测情境下的零数据模型提取攻击

通过生成器人工策划的查询，对于第一次扩展到用于预测物体检测中的边界框坐标的回归问题的黑盒子攻击，提出了一个无数据模型提取技术，发现定义损失函数和使用新型生成器设置是提取目标模型的关键。所提出的模型提取方法通过合理的查询取得了显著的结果，该物体检测漏洞的发现将有助于未来保护这类模型的前景。

Aug, 2023

Sesame Street 上的盗贼！BERT-based API 的模型提取

该研究探讨了自然语言处理中模型提取的问题，结果表明，在具有查询访问权限的情况下，攻击者可以使用任意的打乱语序的字串以及特定启发式方法从模型中提取出相应模型的本地副本，通过使用预先训练好的 NLP 模型，使用转移学习的方法，他们在各种类型的 NLP 任务上展现出了攻击的有效性。而防范措施则徒劳无功。

Oct, 2019

MEGEX：基于梯度的可解释人工智能无数据模型提取攻击

本文提出了 MEGEX，针对一种梯度可解释人工智能的数据自由模型提取攻击。攻击者使用解释结果来训练生成模型以减少查询次数，可以在不准备输入数据的情况下成功窃取训练好的模型。实验表明，在 SVHN 和 CIFAR-10 数据集上，给定 200 万和 2000 万个查询，我们提出的方法可以重构高准确度的模型，分别是受害模型准确度的 0.97 倍和 0.98 倍，这暗示着模型的可解释性和难以窃取之间存在折衷。

Jul, 2021

朝着更现实的提取攻击：一种对抗性视角

利用对语言模型的脆弱性，我们从对抗性的角度重新审视了提取攻击，发现即使对提示进行微小、不符合直觉的更改，或者针对较小的模型和旧的检查点，也可以将提取风险增加 2-4 倍。此外，仅依赖广泛接受的逐字匹配低估了提取信息的真实范围，我们提供了其他准确捕捉提取风险的方法。我们总结了数据去重，这是一种常见的缓解策略，并发现它虽然解决了一些记忆问题，但仍对真实的对手提取风险的升级具有脆弱性。我们的发现凸显了认识对手的真实能力以避免低估提取风险的必要性。

Jul, 2024

机器遗忘的重构攻击：简单模型易受攻击

机器遗忘是出于对数据自治的渴望：一个人可以要求使其数据在部署模型中的影响消失，并且这些模型应该更新，就像重新训练而没有该人的数据一样。然而，我们展示出这些更新与个人之间会暴露出高精度的重构攻击，这使得攻击者可以完整地恢复其数据，即使原始模型如此简单，以至于隐私风险可能不会引起担忧。我们展示了如何对线性回归模型中删除的数据点发起近乎完美的攻击。然后，我们将我们的攻击泛化到其他损失函数和架构，并在范围广泛的数据集上实证证明了我们的攻击的有效性（涵盖表格数据和图像数据）。我们的工作强调了即使对于极其简单的模型类别，当个人可以要求在模型中删除他们的数据时，隐私风险仍然是显著的。

May, 2024