只需噪声输入即可进行模型权重盗窃：暴躁攻击者的好奇案例

ICMLDec, 2019

只需噪声输入即可进行模型权重盗窃：暴躁攻击者的好奇案例

Model Weight Theft With Just Noise Inputs: The Curious Case of the Petulant Attacker

Nicholas Roberts, Vinay Uday Prabhu, Matthew McAteer

TL;DR研究神经网络的权重在何种情况下容易被攻击者盗取。使用 i.i.d. 噪声输入，通过窃取 MNIST 和 KMNIST 模型，测试准确率分别达到 96% 和 82%，这说明权重的可盗取性与数据集的复杂性密切相关。此研究不仅突出了已知架构对模型窃取的影响，也为 CNN 的权重可学性提供了新的度量方法。此外，尝试使用 Ising 概率分布替代 i.i.d. 伯努利分布。

Abstract

This paper explores the scenarios under which an attacker can claim that 'Noise and access to the softmax layer of the model is all you need' to steal the weights of a convolutional neural network whose architecture is already known. We were able to achieve 96% test accuracy using the

convolutional neural network model stealing dataset complexity stolen mnist model i.i.d. noise inputs

发现论文，激发创造

卷积神经网络模型窃取攻击的高效防御

通过引入一种启发式方法来扰动输出概率，我们提出了一种简单而有效的防御措施，可轻松集成到模型中，不需要额外的训练，并且对模型性能影响小，在防御三种最先进的盗窃攻击方面表现出色，对于针对边缘设备的量化卷积神经网络同样有效。

Sep, 2023

利用欺骗性扰动防御机器学习模型窃取攻击

本文提出一种防御简单模型窃取攻击的方法，通过在提供的信息中添加噪音以限制敌对方的信息获取，使窃取模型的准确性降低至少 20% 或需要多达 64 倍的查询次数，并在此过程中保持原模型准确性。

May, 2018

窃取隐形：通过对抗样本和时间侧信道揭示预训练的卷积神经网络模型

基于对对抗性图像分类模式的观察，我们提出一种用于盗取模型的方法，结合时间侧信道和对抗性图像分类，以指纹识别多个著名的卷积神经网络和 Vision Transformer 架构，该方法可在减少查询次数的同时保持高准确率。

Feb, 2024

用单个查询窃取图像到图像转换模型

通过简单蒸馏，使用仅一个小尺寸的查询图像即可窃取很多基于图像转换的模型，包括去噪、去模糊、去雨点、超分辨率和生物图像转换。

Jun, 2024

Knockoff Nets: 模拟黑盒模型功能

本文针对机器学习黑盒模型，提出了一种攻击方法，通过仅利用输入图像和输出的预测结果，而无需了解模型训练数据、结构或输出语义的情况下，来窃取其功能，并采用一种基于强化学习的方法，提高了查询样本的效率和性能。

Dec, 2018

使用自适应虚假信息防御模型窃取攻击

该研究提出了采用自适应误导的方法抵御深度神经网络模型盗窃攻击，并针对现有所有模型盗窃攻击均使用 Out-Of-Distribution 输入进行了阐述，提出选择性错误预测的方法以显著降低攻击者克隆模型的准确率，同时最小化对良性用户准确率的影响，这种防御具有更好的安全性和准确度平衡，并且计算开销最小。

Nov, 2019

复制卷积神经网络：通过随机非标签数据诱导认知来窃取知识

本研究主要研究如何通过黑盒查询和随机非标记数据来生成一个复制的卷积神经网络，通过该方法可以复制目标网络的 91.3％到 98.6％的性能。

Jun, 2018

MimosaNet：一种防止模型盗窃的模型

本文提出了一种方法，通过使深度神经网络对权重变化非常敏感，创建一个等效的神经网络模型，从而防止模型盗窃，这个等效模型具有与原来模型相同的响应和分类准确性。

Jul, 2019

预测污染：针对 DNN 模型窃取攻击的防御

本文介绍了一种主动防御机制，针对深度神经网络模型窃取攻击进行干扰预测的方法，可有效应对多种难缠的数据集和攻击类型，并且表现出更优越的效果。

Jun, 2019

评估量子神经网络中的模型窃取攻击和防御机制的有效性

云端托管的量子机器学习（QML）模型面临许多漏洞，其中最重要的是模型窃取攻击。本研究评估了这些攻击在量子计算领域的效果，利用多个 QML 模型体系结构在不同数据集上进行了全面的实验。实验结果显示，使用 Top-1 和 Top-k（k: num_classes）标签进行训练的模型窃取攻击可以产生克隆模型，其克隆测试准确率分别达到原模型的 0.9 倍和 0.99 倍。为了防御这些攻击，我们利用当前嘈杂硬件的独特属性扰乱了受害模型的输出，阻碍了攻击者的训练过程。具体来说，我们提出了两种方法：1）硬件变化诱发的扰动（HVIP）和 2）硬件和模型结构变化诱发的扰动（HAVIP）。虽然噪声和架构的可变性可以提供约 16% 的输出混淆，但我们的综合分析表明，在噪声条件下克隆的模型往往是弹性的，由于这种混淆几乎不会导致性能下降。尽管我们的防御技术取得了有限的成功，但这种结果导致了一项重要发现：在噪声硬件上训练的 QML 模型对扰动或混淆性的防御或攻击具有天然的抵抗力。

Feb, 2024