神经网络的高准确度和高保真度提取

Sep, 2019

神经网络的高准确度和高保真度提取

High Accuracy and High Fidelity Extraction of Neural Networks

Matthew Jagielski, Nicholas Carlini, David Berthelot, Alex Kurakin, Nicolas Papernot

TL;DR本文介绍了模型提取攻击的两种不同目标 —— 准确度和等效性，并介绍了对于直接提取模型权重的功能性提取攻击的扩展，以及在学术数据集和一种使用 10 亿专有图像训练的最先进图像分类器上进行的实验。

Abstract

In a model extraction attack, an adversary steals a copy of a remotely deployed machine learning model, given oracle prediction access. We taxonomize →

model extraction machine learning accuracy fidelity functionally-equivalent extraction

发现论文，激发创造

目标检测情境下的零数据模型提取攻击

通过生成器人工策划的查询，对于第一次扩展到用于预测物体检测中的边界框坐标的回归问题的黑盒子攻击，提出了一个无数据模型提取技术，发现定义损失函数和使用新型生成器设置是提取目标模型的关键。所提出的模型提取方法通过合理的查询取得了显著的结果，该物体检测漏洞的发现将有助于未来保护这类模型的前景。

Aug, 2023

超越标签神谕：窃取机器学习模型的意义是什么？

以查询访问方式为前提设计的模型提取攻击旨在通过机器学习即服务提供商所提供的 API 获取已训练模型，该攻击的主要动机在于以比重新训练模型更低的成本获取模型。然而，我们的研究显示，攻击者常常无法节约数据采集和标注成本，并且攻击成功与攻击者的先验知识密切相关。因此，对于预算有限但仍想要开发具有相同能力的模型的攻击者而言，模型提取攻击的实际意义值得商榷。最终，我们提出了一种评估攻击策略的基准方案，明确将先验知识的影响与攻击策略分离。

Oct, 2023

无数据模型提取

该研究提出了一种基于无数据的知识迁移技术进行模型抽取的方法，解决了模型抽取攻击需要训练数据集的限制，并在黑盒模型中通过逼近梯度和选择合适的损失函数，实现了对珍贵模型的精准复制。

Nov, 2020

神经网络模型的密码分析提取

该研究主要研究了如何利用差分攻击方法，通过查询神经网络的关键点来窃取模型参数，从而实现更高精度的模型抽取。

Mar, 2020

朝着更现实的提取攻击：一种对抗性视角

利用对语言模型的脆弱性，我们从对抗性的角度重新审视了提取攻击，发现即使对提示进行微小、不符合直觉的更改，或者针对较小的模型和旧的检查点，也可以将提取风险增加 2-4 倍。此外，仅依赖广泛接受的逐字匹配低估了提取信息的真实范围，我们提供了其他准确捕捉提取风险的方法。我们总结了数据去重，这是一种常见的缓解策略，并发现它虽然解决了一些记忆问题，但仍对真实的对手提取风险的升级具有脆弱性。我们的发现凸显了认识对手的真实能力以避免低估提取风险的必要性。

Jul, 2024

MEGEX：基于梯度的可解释人工智能无数据模型提取攻击

本文提出了 MEGEX，针对一种梯度可解释人工智能的数据自由模型提取攻击。攻击者使用解释结果来训练生成模型以减少查询次数，可以在不准备输入数据的情况下成功窃取训练好的模型。实验表明，在 SVHN 和 CIFAR-10 数据集上，给定 200 万和 2000 万个查询，我们提出的方法可以重构高准确度的模型，分别是受害模型准确度的 0.97 倍和 0.98 倍，这暗示着模型的可解释性和难以窃取之间存在折衷。

Jul, 2021

Knockoff Nets: 模拟黑盒模型功能

本文针对机器学习黑盒模型，提出了一种攻击方法，通过仅利用输入图像和输出的预测结果，而无需了解模型训练数据、结构或输出语义的情况下，来窃取其功能，并采用一种基于强化学习的方法，提高了查询样本的效率和性能。

Dec, 2018

图神经网络模型提取攻击：分类和实现

该论文研究了机器学习模型面临的模型训练攻击问题，在实验中成功地运用了攻击方法将 GNN 模型复制出来，可对图形结构和节点特征进行提取攻击

Oct, 2020

嵌入式神经网络模型提取的故障注入和安全错误攻击

模型提取是一种关键的安全威胁，它通过算法和基于实现的方法进行攻击，我们关注嵌入式深度神经网络模型及标准错误攻击策略以进行模型提取攻击，成功地恢复了至少 90% 最显著位，并仅使用 8% 的训练数据集训练出了与受害模型近乎相同精度的替代模型。

Aug, 2023

复杂 DNN 模型的提取：真正的威胁还是鬼话？

本文研究机器学习模型的保护问题，重点探讨了模型抽取攻击的威胁性，并提出一种基于区分恶意和良性查询的防御方法

Oct, 2019