利用欺骗性扰动防御机器学习模型窃取攻击

May, 2018

利用欺骗性扰动防御机器学习模型窃取攻击

Defending Against Machine Learning Model Stealing Attacks Using Deceptive Perturbations

Taesung Lee, Benjamin Edwards, Ian Molloy, Dong Su

TL;DR本文提出一种防御简单模型窃取攻击的方法，通过在提供的信息中添加噪音以限制敌对方的信息获取，使窃取模型的准确性降低至少 20% 或需要多达 64 倍的查询次数，并在此过程中保持原模型准确性。

Abstract

machine learning models are vulnerable to simple model stealing attacks if the adversary can obtain output labels for chosen inputs. To protect against these attacks, it has been proposed to limit the information

machine learning model stealing attacks defending class probability information adversarial models

发现论文，激发创造

卷积神经网络模型窃取攻击的高效防御

通过引入一种启发式方法来扰动输出概率，我们提出了一种简单而有效的防御措施，可轻松集成到模型中，不需要额外的训练，并且对模型性能影响小，在防御三种最先进的盗窃攻击方面表现出色，对于针对边缘设备的量化卷积神经网络同样有效。

Sep, 2023

预测污染：针对 DNN 模型窃取攻击的防御

本文介绍了一种主动防御机制，针对深度神经网络模型窃取攻击进行干扰预测的方法，可有效应对多种难缠的数据集和攻击类型，并且表现出更优越的效果。

Jun, 2019

使用自适应虚假信息防御模型窃取攻击

该研究提出了采用自适应误导的方法抵御深度神经网络模型盗窃攻击，并针对现有所有模型盗窃攻击均使用 Out-Of-Distribution 输入进行了阐述，提出选择性错误预测的方法以显著降低攻击者克隆模型的准确率，同时最小化对良性用户准确率的影响，这种防御具有更好的安全性和准确度平衡，并且计算开销最小。

Nov, 2019

关于机器学习模型盗窃及其防御的综述：我知道去年你训练过什么

MLaaS 服务的 “模型窃取” 攻击威胁了提供商的知识产权，本文通过对该领域进行全面系统化的分类和比较，探索了相应的防御技术，并提出了攻击和防御策略的分类法和指南并分析哪些防御策略被当前攻击策略削弱

Jun, 2022

攻击对抗性攻击作为一种防御

通过对敌对学习及攻击的深入探究，我们发现在敌对性训练的模型中，用微小的随机噪声扰动部分攻击样本能够破坏其误导性预测，为此我们提出了一种有效的防御方法，是通过制造更加有效的防御扰动方法，利用敌对训练降低了地面真实的局部 Lipschitzness，同时攻击所有类别，将误导的预测转换为正确的预测，这种方法在经验实验证明有效。

Jun, 2021

评估量子神经网络中的模型窃取攻击和防御机制的有效性

云端托管的量子机器学习（QML）模型面临许多漏洞，其中最重要的是模型窃取攻击。本研究评估了这些攻击在量子计算领域的效果，利用多个 QML 模型体系结构在不同数据集上进行了全面的实验。实验结果显示，使用 Top-1 和 Top-k（k: num_classes）标签进行训练的模型窃取攻击可以产生克隆模型，其克隆测试准确率分别达到原模型的 0.9 倍和 0.99 倍。为了防御这些攻击，我们利用当前嘈杂硬件的独特属性扰乱了受害模型的输出，阻碍了攻击者的训练过程。具体来说，我们提出了两种方法：1）硬件变化诱发的扰动（HVIP）和 2）硬件和模型结构变化诱发的扰动（HAVIP）。虽然噪声和架构的可变性可以提供约 16% 的输出混淆，但我们的综合分析表明，在噪声条件下克隆的模型往往是弹性的，由于这种混淆几乎不会导致性能下降。尽管我们的防御技术取得了有限的成功，但这种结果导致了一项重要发现：在噪声硬件上训练的 QML 模型对扰动或混淆性的防御或攻击具有天然的抵抗力。

Feb, 2024

只需噪声输入即可进行模型权重盗窃：暴躁攻击者的好奇案例

研究神经网络的权重在何种情况下容易被攻击者盗取。使用 i.i.d. 噪声输入，通过窃取 MNIST 和 KMNIST 模型，测试准确率分别达到 96% 和 82%，这说明权重的可盗取性与数据集的复杂性密切相关。此研究不仅突出了已知架构对模型窃取的影响，也为 CNN 的权重可学性提供了新的度量方法。此外，尝试使用 Ising 概率分布替代 i.i.d. 伯努利分布。

Dec, 2019

通过预测 API 窃取机器学习模型

本研究探究了机器学习模型机密性和公共访问之间的紧张关系，针对在线服务（如 BigML 和 Amazon Machine Learning）中的普通模型类，研究了一些简单有效的攻击方法和相应的反攻击策略。

Sep, 2016

关于深度学习系统攻击幽灵化的研究

本文的研究旨在探讨对深度学习模型的攻击是否具有隐蔽性，以及对攻击样本的隐蔽性进行了两种不同的测试方法，并发现大多数攻击会对图像进行不可忽略的扰动，且分析了攻击隐蔽性的各个因素。

May, 2022

使用扩散模型的威胁模型不可知对抗性防御

本文介绍了一种在各种威胁模型下生成鲁棒分类器的方法，该方法利用了随机生成建模的最新进展，并利用条件分布采样。通过在被攻击的图像上添加高斯独立同分布噪声，然后进行预训练扩散过程，该方法表现出了可观的鲁棒性。该鲁棒性在 CIFAR-10 数据集上经过了广泛的实验验证，表明我们的方法在各种威胁模型下优于主要的防御方法。

Jul, 2022