Knockoff Nets: 模拟黑盒模型功能

Dec, 2018

Knockoff Nets: Stealing Functionality of Black-Box Models

Tribhuvanesh Orekondy, Bernt Schiele, Mario Fritz

TL;DR本文针对机器学习黑盒模型，提出了一种攻击方法，通过仅利用输入图像和输出的预测结果，而无需了解模型训练数据、结构或输出语义的情况下，来窃取其功能，并采用一种基于强化学习的方法，提高了查询样本的效率和性能。

Abstract

machine learning (ML) models are increasingly deployed in the wild to perform a wide range of tasks. In this work, we ask to what extent can an adversary steal functionality of such "victim" models based solely on blackbox interactions: image in, predictions out. In contrast to prior w

machine learning adversarial attacks blackbox interactions model functionality stealing reinforcement learning

发现论文，激发创造

复杂 DNN 模型的提取：真正的威胁还是鬼话？

本文研究机器学习模型的保护问题，重点探讨了模型抽取攻击的威胁性，并提出一种基于区分恶意和良性查询的防御方法

Oct, 2019

学生超越老师：基于模仿的黑盒自然语言处理 API 攻击

利用无监督域适应和多受害者集成的方法，攻击者可能会在 NLP API 中超越原始黑盒模型，这是对模型提取以前的理解的超越，验证结果表明模仿者可以在转移领域中成功地胜过原始的黑盒模型，这将影响 API 提供者的防御或发布策略。

Aug, 2021

机器学习的实用黑盒攻击

该研究介绍了一种利用黑盒攻击实现远程控制机器学习模型的方法，该攻击方式不需要了解模型内部或训练数据。研究表明该黑盒攻击策略可适用于许多机器学习技术，并且能够规避之前发现的防御策略。

Feb, 2016

使用自适应虚假信息防御模型窃取攻击

该研究提出了采用自适应误导的方法抵御深度神经网络模型盗窃攻击，并针对现有所有模型盗窃攻击均使用 Out-Of-Distribution 输入进行了阐述，提出选择性错误预测的方法以显著降低攻击者克隆模型的准确率，同时最小化对良性用户准确率的影响，这种防御具有更好的安全性和准确度平衡，并且计算开销最小。

Nov, 2019

窃取隐形：通过对抗样本和时间侧信道揭示预训练的卷积神经网络模型

基于对对抗性图像分类模式的观察，我们提出一种用于盗取模型的方法，结合时间侧信道和对抗性图像分类，以指纹识别多个著名的卷积神经网络和 Vision Transformer 架构，该方法可在减少查询次数的同时保持高准确率。

Feb, 2024

机器学习中的可迁移性：从现象到黑盒攻击利用对抗样本

对机器学习模型的黑盒攻击是可能的，即使它们的结构不同。通过生成对抗性样本，并利用受害者模型标记合成训练集，攻击者可以训练出自己的替代模型，并将对抗性样本转移到受害者模型中实施攻击，该方法可以使用新的技术使攻击过程更加有效率，在 Amazon 和 Google 等公司的商业机器学习分类系统中展示了攻击的有效性。

May, 2016

针对花生的模型：在无训练访问的情况下劫持机器学习模型是可行的

我们提出了一种在推断时间进行模型劫持的简单方法 SnatchML，通过在受害模型的潜在空间中使用距离度量来将未知输入样本分类为与劫持任务类别相关的先前已知样本。同时，我们还探讨了不同的方法来缓解这种风险，其中包括一种名为 meta-unlearning 的新方法，用于在原始任务数据集上进行训练时帮助模型遗忘潜在的恶意任务，并针对这种攻击提出了一种基于压缩的对抗措施。

Jun, 2024

用单个查询窃取图像到图像转换模型

通过简单蒸馏，使用仅一个小尺寸的查询图像即可窃取很多基于图像转换的模型，包括去噪、去模糊、去雨点、超分辨率和生物图像转换。

Jun, 2024

在硬标签环境中实现无数据模型窃取

本文提出了一种利用 GAN-based framework 来绕过 hard label，仅仅通过访问 top-1 prediction 的方式，以及不访问模型梯度和训练数据的情况下偷取机器学习模型的方法，同时通过利用公开数据集来降低查询成本，并在 100 类数据集上展示了模型窃取的规模性。

Apr, 2022

通过预测 API 窃取机器学习模型

本研究探究了机器学习模型机密性和公共访问之间的紧张关系，针对在线服务（如 BigML 和 Amazon Machine Learning）中的普通模型类，研究了一些简单有效的攻击方法和相应的反攻击策略。

Sep, 2016