深度学习系统的模型重用攻击

MMDec, 2018

Model-Reuse Attacks on Deep Learning Systems

Yujie Ji, Xinyang Zhang, Shouling Ji, Xiapu Luo, Ting Wang

TL;DR本文展示了恶意原始模型对机器学习系统的安全性带来的巨大威胁，并提供了有效、难以检测和易于实现的攻击方法，同时探讨了相应的潜在对策，给出了若干有前途的研究方向。

Abstract

Many of today's machine learning (ML) systems are built by reusing an array of, often pre-trained, primitive models, each fulfilling distinct functionality (e.g., feature extraction). The increasing use of primitive mod

machine learning systems primitive models model-reuse attacks security implications countermeasures

发现论文，激发创造

深度学习模型中的安全与隐私挑战

深度学习模型在多个领域取得了巨大的成功，但研究发现这些模型存在各种攻击，会危及模型的安全性和数据隐私，特别是模型抽取攻击、模型反转攻击和对抗攻击。这篇论文研究了这些攻击以及它们对深度学习模型的影响。

Nov, 2023

针对花生的模型：在无训练访问的情况下劫持机器学习模型是可行的

我们提出了一种在推断时间进行模型劫持的简单方法 SnatchML，通过在受害模型的潜在空间中使用距离度量来将未知输入样本分类为与劫持任务类别相关的先前已知样本。同时，我们还探讨了不同的方法来缓解这种风险，其中包括一种名为 meta-unlearning 的新方法，用于在原始任务数据集上进行训练时帮助模型遗忘潜在的恶意任务，并针对这种攻击提出了一种基于压缩的对抗措施。

Jun, 2024

机器学习中安全与隐私科学的探索

ML 在安全性方面存在漏洞，提出威胁模型并对攻击进行分类，探究了模型准确性与抗敌对操作的关系。

Nov, 2016

SecurityNet: 评估公共模型的机器学习漏洞

将公共模型用于评估机器学习模型的攻击和防御方法，表明这些攻击 / 防御方法在公共模型上的表现与自行训练的模型存在显著差异。

Oct, 2023

基于机器学习系统的安全性：在训练和推理期间的攻击和挑战

对机器学习中存在的各种安全威胁、威胁模型及相关挑战进行了简要概述，利用 LeNet 和 VGGNet 对 MNIST 和 GTSRB 等基准进行了安全威胁演示，提出并解决了部分误差影响并较小的攻击方式，并阐述了开发安全措施的相关技术。

Nov, 2018

模型提取攻击再审视

模型提取攻击是对机器学习即服务（MLaaS）平台的机器学习模型功能性进行 “窃取” 的主要威胁，本文通过综合多个角度对当前 MLaaS 平台的模型提取漏洞进行了深入研究，揭示了漏洞的演化规律，并提出了一些提高 MLaaS 的安全性的建议。

Dec, 2023

关于机器学习模型盗窃及其防御的综述：我知道去年你训练过什么

MLaaS 服务的 “模型窃取” 攻击威胁了提供商的知识产权，本文通过对该领域进行全面系统化的分类和比较，探索了相应的防御技术，并提出了攻击和防御策略的分类法和指南并分析哪些防御策略被当前攻击策略削弱

Jun, 2022

机器遗忘的重构攻击：简单模型易受攻击

机器遗忘是出于对数据自治的渴望：一个人可以要求使其数据在部署模型中的影响消失，并且这些模型应该更新，就像重新训练而没有该人的数据一样。然而，我们展示出这些更新与个人之间会暴露出高精度的重构攻击，这使得攻击者可以完整地恢复其数据，即使原始模型如此简单，以至于隐私风险可能不会引起担忧。我们展示了如何对线性回归模型中删除的数据点发起近乎完美的攻击。然后，我们将我们的攻击泛化到其他损失函数和架构，并在范围广泛的数据集上实证证明了我们的攻击的有效性（涵盖表格数据和图像数据）。我们的工作强调了即使对于极其简单的模型类别，当个人可以要求在模型中删除他们的数据时，隐私风险仍然是显著的。

May, 2024

针对深度模型的目标无关攻击：利用迁移学习的安全漏洞

该论文研究了在迁移学习中使用公共预训练模型会存在安全漏洞的问题，因为攻击者可以使用基于暴力破解的方法，通过已知的预训练模型，生成能够触发目标分类器的实例，从而破解安全防护措施。此外，论文也提到了 Softmax 层的基本安全漏洞。

Apr, 2019

你相信你的模型吗？深度学习生态系统中的新兴恶意软件威胁

本研究论文旨在提高对使用预训练模型时面临的新型机器学习供应链威胁的意识。我们介绍了 MaleficNet 2.0，这是一种在神经网络中嵌入自解压、自执行恶意软件的新技术。MaleficNet 2.0 利用扩频信道编码和纠错技术，将恶意载荷注入深度神经网络的参数中。该注入技术隐蔽且不降低模型性能，对去除技术具有鲁棒性。我们的方法旨在适用于传统和分布式学习环境，如联邦学习，并证明了在模型参数使用较少比特时仍具有效性。最后，我们利用 MaleficNet 2.0 实现了一个概念验证的自解压神经网络恶意软件，展示了该攻击对广泛采用的机器学习框架的实用性。我们希望通过这项工作提高学术界和工业界对这些新型危险攻击的意识，并鼓励进一步研究以应对此类威胁。

Mar, 2024