针对花生的模型：在无训练访问的情况下劫持机器学习模型是可行的

Jun, 2024

针对花生的模型：在无训练访问的情况下劫持机器学习模型是可行的

Model for Peanuts: Hijacking ML Models without Training Access is Possible

Mahmoud Ghorbel, Halima Bouzidi, Ioan Marius Bilasco, Ihsen Alouani

TL;DR我们提出了一种在推断时间进行模型劫持的简单方法 SnatchML，通过在受害模型的潜在空间中使用距离度量来将未知输入样本分类为与劫持任务类别相关的先前已知样本。同时，我们还探讨了不同的方法来缓解这种风险，其中包括一种名为 meta-unlearning 的新方法，用于在原始任务数据集上进行训练时帮助模型遗忘潜在的恶意任务，并针对这种攻击提出了一种基于压缩的对抗措施。

Abstract

The massive deployment of Machine Learning (ML) models has been accompanied by the emergence of several attacks that threaten their trustworthiness and raise ethical and societal concerns such as invasion of privacy, discrimination risks, and lack of accountability. model hijacking is

machine learning models model hijacking inference time snatchml over-parameterization

发现论文，激发创造

通过预测 API 窃取机器学习模型

本研究探究了机器学习模型机密性和公共访问之间的紧张关系，针对在线服务（如 BigML 和 Amazon Machine Learning）中的普通模型类，研究了一些简单有效的攻击方法和相应的反攻击策略。

Sep, 2016

双重攻击：一种针对文本生成模型的模型劫持攻击

通过新的模型劫持攻击，可以成功地入侵文本生成模型而不危及其效用。

May, 2023

关于机器学习模型盗窃及其防御的综述：我知道去年你训练过什么

MLaaS 服务的 “模型窃取” 攻击威胁了提供商的知识产权，本文通过对该领域进行全面系统化的分类和比较，探索了相应的防御技术，并提出了攻击和防御策略的分类法和指南并分析哪些防御策略被当前攻击策略削弱

Jun, 2022

深度学习系统的模型重用攻击

本文展示了恶意原始模型对机器学习系统的安全性带来的巨大威胁，并提供了有效、难以检测和易于实现的攻击方法，同时探讨了相应的潜在对策，给出了若干有前途的研究方向。

Dec, 2018

超越标签神谕：窃取机器学习模型的意义是什么？

以查询访问方式为前提设计的模型提取攻击旨在通过机器学习即服务提供商所提供的 API 获取已训练模型，该攻击的主要动机在于以比重新训练模型更低的成本获取模型。然而，我们的研究显示，攻击者常常无法节约数据采集和标注成本，并且攻击成功与攻击者的先验知识密切相关。因此，对于预算有限但仍想要开发具有相同能力的模型的攻击者而言，模型提取攻击的实际意义值得商榷。最终，我们提出了一种评估攻击策略的基准方案，明确将先验知识的影响与攻击策略分离。

Oct, 2023

Knockoff Nets: 模拟黑盒模型功能

本文针对机器学习黑盒模型，提出了一种攻击方法，通过仅利用输入图像和输出的预测结果，而无需了解模型训练数据、结构或输出语义的情况下，来窃取其功能，并采用一种基于强化学习的方法，提高了查询样本的效率和性能。

Dec, 2018

窃取隐形：通过对抗样本和时间侧信道揭示预训练的卷积神经网络模型

基于对对抗性图像分类模式的观察，我们提出一种用于盗取模型的方法，结合时间侧信道和对抗性图像分类，以指纹识别多个著名的卷积神经网络和 Vision Transformer 架构，该方法可在减少查询次数的同时保持高准确率。

Feb, 2024

ML-Leaks: 对机器学习模型进行模型和数据无关的成员资格推断攻击和防御

本文提出了针对机器学习服务的会员推理攻击的可能性，并放宽了先前攻击假设中的关键假设，说明这些攻击的适用性广泛且代价低廉，从而比先前认为的更具严重性；提出了对抗此类攻击的第一种有效机制，并保持模型的高效性。

Jun, 2018

机器学习的实用黑盒攻击

该研究介绍了一种利用黑盒攻击实现远程控制机器学习模型的方法，该攻击方式不需要了解模型内部或训练数据。研究表明该黑盒攻击策略可适用于许多机器学习技术，并且能够规避之前发现的防御策略。

Feb, 2016

ML-Doctor: 机器学习模型推理攻击的全面风险评估

本文首次全面评估不同推断攻击对机器学习模型的威胁，研究了四种攻击（成员推断，模型反演，属性推断和模型窃取）的威胁模型分类，并通过实验评估了不同数据集和模型结构的表现和防御措施的有效性。

Feb, 2021