深度学习系统的模型重用攻击
深度学习模型在多个领域取得了巨大的成功,但研究发现这些模型存在各种攻击,会危及模型的安全性和数据隐私,特别是模型抽取攻击、模型反转攻击和对抗攻击。这篇论文研究了这些攻击以及它们对深度学习模型的影响。
Nov, 2023
我们提出了一种在推断时间进行模型劫持的简单方法 SnatchML,通过在受害模型的潜在空间中使用距离度量来将未知输入样本分类为与劫持任务类别相关的先前已知样本。同时,我们还探讨了不同的方法来缓解这种风险,其中包括一种名为 meta-unlearning 的新方法,用于在原始任务数据集上进行训练时帮助模型遗忘潜在的恶意任务,并针对这种攻击提出了一种基于压缩的对抗措施。
Jun, 2024
对机器学习中存在的各种安全威胁、威胁模型及相关挑战进行了简要概述,利用 LeNet 和 VGGNet 对 MNIST 和 GTSRB 等基准进行了安全威胁演示,提出并解决了部分误差影响并较小的攻击方式,并阐述了开发安全措施的相关技术。
Nov, 2018
模型提取攻击是对机器学习即服务(MLaaS)平台的机器学习模型功能性进行 “窃取” 的主要威胁,本文通过综合多个角度对当前 MLaaS 平台的模型提取漏洞进行了深入研究,揭示了漏洞的演化规律,并提出了一些提高 MLaaS 的安全性的建议。
Dec, 2023
MLaaS 服务的 “模型窃取” 攻击威胁了提供商的知识产权,本文通过对该领域进行全面系统化的分类和比较,探索了相应的防御技术,并提出了攻击和防御策略的分类法和指南并分析哪些防御策略被当前攻击策略削弱
Jun, 2022
机器遗忘是出于对数据自治的渴望:一个人可以要求使其数据在部署模型中的影响消失,并且这些模型应该更新,就像重新训练而没有该人的数据一样。然而,我们展示出这些更新与个人之间会暴露出高精度的重构攻击,这使得攻击者可以完整地恢复其数据,即使原始模型如此简单,以至于隐私风险可能不会引起担忧。我们展示了如何对线性回归模型中删除的数据点发起近乎完美的攻击。然后,我们将我们的攻击泛化到其他损失函数和架构,并在范围广泛的数据集上实证证明了我们的攻击的有效性(涵盖表格数据和图像数据)。我们的工作强调了即使对于极其简单的模型类别,当个人可以要求在模型中删除他们的数据时,隐私风险仍然是显著的。
May, 2024
该论文研究了在迁移学习中使用公共预训练模型会存在安全漏洞的问题,因为攻击者可以使用基于暴力破解的方法,通过已知的预训练模型,生成能够触发目标分类器的实例,从而破解安全防护措施。此外,论文也提到了 Softmax 层的基本安全漏洞。
Apr, 2019
本研究论文旨在提高对使用预训练模型时面临的新型机器学习供应链威胁的意识。我们介绍了 MaleficNet 2.0,这是一种在神经网络中嵌入自解压、自执行恶意软件的新技术。MaleficNet 2.0 利用扩频信道编码和纠错技术,将恶意载荷注入深度神经网络的参数中。该注入技术隐蔽且不降低模型性能,对去除技术具有鲁棒性。我们的方法旨在适用于传统和分布式学习环境,如联邦学习,并证明了在模型参数使用较少比特时仍具有效性。最后,我们利用 MaleficNet 2.0 实现了一个概念验证的自解压神经网络恶意软件,展示了该攻击对广泛采用的机器学习框架的实用性。我们希望通过这项工作提高学术界和工业界对这些新型危险攻击的意识,并鼓励进一步研究以应对此类威胁。
Mar, 2024