自监督语音模型的模型提取攻击

Nov, 2022

Model Extraction Attack against Self-supervised Speech Models

Tsu-Yuan Hsu, Chen-An Li, Tung-Yu Wu, Hung-yi Lee

TL;DR本文提出了一种利用自我监督学习预训练和主动采样的方法，只使用查询访问功能对小规模语音模型进行对抗攻击模型提取，实验结果表明，该采样方法可以有效地提取目标模型，而不需要知道其模型架构。

Abstract

self-supervised learning (SSL) speech models generate meaningful representations of given clips and achieve incredible performance across various downstream tasks. →

self-supervised learning model extraction attack speech models representation learning active sampling

发现论文，激发创造

模型提取攻击再审视

模型提取攻击是对机器学习即服务（MLaaS）平台的机器学习模型功能性进行 “窃取” 的主要威胁，本文通过综合多个角度对当前 MLaaS 平台的模型提取漏洞进行了深入研究，揭示了漏洞的演化规律，并提出了一些提高 MLaaS 的安全性的建议。

Dec, 2023

自监督学习抵御模型抽取的难度

探索了针对自我监督学习 (SSL) 模型的模型窃取攻击，使用这些攻击可以将受害者模型的表示进行窃取并通过训练获得高精度的下游模型。同时，既有的防御方法对于自我监督学习的特殊性不是有效的保护措施。

May, 2022

MeaeQ：高效查询挂载模型抽取攻击

我们提出了 MeaeQ（具有高效查询的模型提取攻击），一种简单而有效的方法来解决自然语言处理（NLP）中的模型提取攻击问题。通过结合 API 服务信息，我们利用零样本序列推理分类器从公共文本语料库中过滤任务相关数据，而不是使用问题特定领域的数据集。此外，我们使用基于聚类的数据减少技术来获取攻击的查询的代表性数据。我们在四个基准数据集上进行的大量实验证明，MeaeQ 在需要更少查询的同时，与受攻击模型具有更高的功能相似性。

Oct, 2023

通过边缘 / 终端设备的侧信道攻击精确提取深度学习模型

深度学习模型的保护对于公司至关重要，我们的研究揭示了边缘设备上的侧信道攻击可以获取模型信息，如模型架构和图像尺寸，在模型提取攻击中起到重要作用。

Mar, 2024

SCME：自我对比方法用于无数据和有限查询模型提取攻击

我们提出了一种名为 SCME（自对比模型提取）的新型无数据模型提取方法，它在合成虚假数据时考虑了类间和类内多样性，而且通过引入 Mixup 操作来增加虚假数据，能够有效探测目标模型的决策边界，提高仿真能力。广泛实验表明，该方法能产生多样化的虚假数据，并在受限查询情况下的许多不同攻击设置中显示出优越性，特别是针对非目标攻击，在五个基准数据集上，SCME 平均比 SOTA 方法提高了 11.43％。

Oct, 2023

MEAOD：针对目标检测器的模型提取攻击

对目标检测模型进行基于查询的模型提取攻击的挑战和可行性进行研究，提出了一种名为 MEAOD 的有效攻击方法，通过主动学习从攻击者拥有的数据集中选择样本构建高效的查询数据集，并通过更新查询数据集的标注来提高提取效果，在 10k 查询预算下，达到超过 70% 的提取性能。

Dec, 2023

SAME：对模型提取攻击的样本重构

通过基于样本重构的概念，介绍了一种新颖的防御机制 SAME，能够解决深度学习模型在 MLaaS 环境下的模型提取攻击问题，并且相较于现有解决方案具有更强的防御效果。

Dec, 2023

语义通信系统中的模型反转窃听攻击

介绍了语义通信系统中模型倒置窃听攻击（MIEA）的风险，并提出了一种基于随机排列和替换的防御方法，以实现安全的语义通信。

Aug, 2023

Sesame Street 上的盗贼！BERT-based API 的模型提取

该研究探讨了自然语言处理中模型提取的问题，结果表明，在具有查询访问权限的情况下，攻击者可以使用任意的打乱语序的字串以及特定启发式方法从模型中提取出相应模型的本地副本，通过使用预先训练好的 NLP 模型，使用转移学习的方法，他们在各种类型的 NLP 任务上展现出了攻击的有效性。而防范措施则徒劳无功。

Oct, 2019

SATML 语言模型数据提取挑战中针对 GPT-Neo 的有目标攻击

应用有针对性的数据提取攻击考察了 SATML2023 语言模型训练数据提取挑战，并通过两步骤的方法成功地从中提取了样本，其中第一步骤成功提取 69％的样本的后缀；接着，使用基于分类器的成员推断攻击对生成式进行检测，其 AutoSklearn 分类器在 10% 的误报率下达到了 0.841 的准确率，相对于基线提高了 34％，完整方法在 10％误报率下以 0.405 召回率得分，研究表明大型语言模型容易受到数据提取攻击，其隐私风险需要引起重视。

Feb, 2023