卷积神经网络模型窃取攻击的高效防御

ICMLSep, 2023

卷积神经网络模型窃取攻击的高效防御

Efficient Defense Against Model Stealing Attacks on Convolutional Neural Networks

Kacem Khaled, Mouna Dhaouadi, Felipe Gohring de Magalhães, Gabriela Nicolescu

TL;DR通过引入一种启发式方法来扰动输出概率，我们提出了一种简单而有效的防御措施，可轻松集成到模型中，不需要额外的训练，并且对模型性能影响小，在防御三种最先进的盗窃攻击方面表现出色，对于针对边缘设备的量化卷积神经网络同样有效。

Abstract

model stealing attacks have become a serious concern for deep learning models, where an attacker can steal a trained model by querying its black-box API. This can lead to intellectual property theft and other security and privacy risks. The current state-of-the-art →

model stealing attacks defenses perturbations heuristic approach quantized cnns

发现论文，激发创造

利用欺骗性扰动防御机器学习模型窃取攻击

本文提出一种防御简单模型窃取攻击的方法，通过在提供的信息中添加噪音以限制敌对方的信息获取，使窃取模型的准确性降低至少 20% 或需要多达 64 倍的查询次数，并在此过程中保持原模型准确性。

May, 2018

预测污染：针对 DNN 模型窃取攻击的防御

本文介绍了一种主动防御机制，针对深度神经网络模型窃取攻击进行干扰预测的方法，可有效应对多种难缠的数据集和攻击类型，并且表现出更优越的效果。

Jun, 2019

使用自适应虚假信息防御模型窃取攻击

该研究提出了采用自适应误导的方法抵御深度神经网络模型盗窃攻击，并针对现有所有模型盗窃攻击均使用 Out-Of-Distribution 输入进行了阐述，提出选择性错误预测的方法以显著降低攻击者克隆模型的准确率，同时最小化对良性用户准确率的影响，这种防御具有更好的安全性和准确度平衡，并且计算开销最小。

Nov, 2019

只需噪声输入即可进行模型权重盗窃：暴躁攻击者的好奇案例

研究神经网络的权重在何种情况下容易被攻击者盗取。使用 i.i.d. 噪声输入，通过窃取 MNIST 和 KMNIST 模型，测试准确率分别达到 96% 和 82%，这说明权重的可盗取性与数据集的复杂性密切相关。此研究不仅突出了已知架构对模型窃取的影响，也为 CNN 的权重可学性提供了新的度量方法。此外，尝试使用 Ising 概率分布替代 i.i.d. 伯努利分布。

Dec, 2019

使用扩散模型的威胁模型不可知对抗性防御

本文介绍了一种在各种威胁模型下生成鲁棒分类器的方法，该方法利用了随机生成建模的最新进展，并利用条件分布采样。通过在被攻击的图像上添加高斯独立同分布噪声，然后进行预训练扩散过程，该方法表现出了可观的鲁棒性。该鲁棒性在 CIFAR-10 数据集上经过了广泛的实验验证，表明我们的方法在各种威胁模型下优于主要的防御方法。

Jul, 2022

评估量子神经网络中的模型窃取攻击和防御机制的有效性

云端托管的量子机器学习（QML）模型面临许多漏洞，其中最重要的是模型窃取攻击。本研究评估了这些攻击在量子计算领域的效果，利用多个 QML 模型体系结构在不同数据集上进行了全面的实验。实验结果显示，使用 Top-1 和 Top-k（k: num_classes）标签进行训练的模型窃取攻击可以产生克隆模型，其克隆测试准确率分别达到原模型的 0.9 倍和 0.99 倍。为了防御这些攻击，我们利用当前嘈杂硬件的独特属性扰乱了受害模型的输出，阻碍了攻击者的训练过程。具体来说，我们提出了两种方法：1）硬件变化诱发的扰动（HVIP）和 2）硬件和模型结构变化诱发的扰动（HAVIP）。虽然噪声和架构的可变性可以提供约 16% 的输出混淆，但我们的综合分析表明，在噪声条件下克隆的模型往往是弹性的，由于这种混淆几乎不会导致性能下降。尽管我们的防御技术取得了有限的成功，但这种结果导致了一项重要发现：在噪声硬件上训练的 QML 模型对扰动或混淆性的防御或攻击具有天然的抵抗力。

Feb, 2024

高效的对抗攻击防御

本文提出了一种基于实践观察的新的防御方法，旨在强化深度神经网络的结构，提高其预测稳定性，从而更难受到针对性攻击，并在多种攻击实验中证明了该方法的有效性，相比其他防御方法具有更好的表现，而且在训练过程中的开销几乎可以忽略不计。

Jul, 2017

隔离与诱导：针对模型窃取攻击训练强健的深度神经网络

通过隔离对手的训练梯度并减少推理计算成本，训练模型以产生对窃取查询无信息性输出的模型窃取防御方法，有效提高了系统的鲁棒性和速度。

Aug, 2023

理解随机特征防御对基于查询的对抗攻击的鲁棒性

通过在中间层的模型中添加随机噪声，我们提出了一种简单轻量级的防御方法，可以有效增强模型对黑盒攻击的鲁棒性，并且对准确率影响较小。

Oct, 2023

攻击对抗性攻击作为一种防御

通过对敌对学习及攻击的深入探究，我们发现在敌对性训练的模型中，用微小的随机噪声扰动部分攻击样本能够破坏其误导性预测，为此我们提出了一种有效的防御方法，是通过制造更加有效的防御扰动方法，利用敌对训练降低了地面真实的局部 Lipschitzness，同时攻击所有类别，将误导的预测转换为正确的预测，这种方法在经验实验证明有效。

Jun, 2021