- 利用反事实解释进行模型重建:缓解决策边界变动
通过利用虚拟的解释接近决策边界的特点,我们提出了一种称为 Counterfactual Clamping Attack (CCA) 的新型模型提取策略,该策略训练一个使用独特损失函数的代理模型,该损失函数将虚拟解释与普通实例区分对待。我们还 - 如同开卷有益?在 32 位微控制器上利用简单功耗分析读取神经网络架构
通过简单的模式识别分析,我们提出了一种针对传统 MLP 和 CNN 模型的提取方法,该方法可以运行在高端 32 位微控制器(Cortex-M7)上,并且相对于参数提取而言,攻击的复杂性相对较低,强调了对适应这种平台的强大内存和延迟要求的可行 - 超越标签神谕:窃取机器学习模型的意义是什么?
以查询访问方式为前提设计的模型提取攻击旨在通过机器学习即服务提供商所提供的 API 获取已训练模型,该攻击的主要动机在于以比重新训练模型更低的成本获取模型。然而,我们的研究显示,攻击者常常无法节约数据采集和标注成本,并且攻击成功与攻击者的先 - 基于主动自适应知识蒸馏和扩散式图像生成的少次调用模型窃取方法
通过借助扩散模型生成逼真多样的图像,我们提出使用一个新的应用案例来复制黑盒分类模型,并在极少数量的调用中进行模型抽取任务,通过使用主动自适应学习框架来蒸馏被攻击模型的知识,我们的实证结果显示,该框架在少量调用模型抽取场景中优于两种现有方法。
- 基于模型的增强学习中的 MEME 的力量:对抗性恶意软件创建
该研究论文提出了一种结合恶意软件规避和模型提取的新算法(MEME),采用基于模型的强化学习来对 Windows 可执行二进制样本进行恶意修改,并同时训练具有与目标模型高度一致性的替代模型进行规避。结果显示,MEME 在几乎所有情况下的规避能 - 嵌入式神经网络模型提取的故障注入和安全错误攻击
模型提取是一种关键的安全威胁,它通过算法和基于实现的方法进行攻击,我们关注嵌入式深度神经网络模型及标准错误攻击策略以进行模型提取攻击,成功地恢复了至少 90% 最显著位,并仅使用 8% 的训练数据集训练出了与受害模型近乎相同精度的替代模型。
- 通过无数据模型提取对顺序推荐器的黑盒攻击
本研究探讨了模型提取是否可以用于 “窃取” 顺序推荐系统的权重以及针对此类攻击对受害者可能带来的潜在威胁。我们认为,由于用于训练它们的特定自回归模型,顺序推荐系统容易受到攻击。我们在无数据访问情况下,通过有限预算模拟数据生成和知识蒸馏提出了 - 无数据模型提取
该研究提出了一种基于无数据的知识迁移技术进行模型抽取的方法,解决了模型抽取攻击需要训练数据集的限制,并在黑盒模型中通过逼近梯度和选择合适的损失函数,实现了对珍贵模型的精准复制。
- 神经网络模型的密码分析提取
该研究主要研究了如何利用差分攻击方法,通过查询神经网络的关键点来窃取模型参数,从而实现更高精度的模型抽取。
- AAAI图神经网络上的对抗型模型提取
本文提出了在基于图神经网络的机器学习模型中进行模型抽取的方法,以解决对关系数据中的深度神经网络进行攻击的问题。
- ICLRSesame Street 上的盗贼!BERT-based API 的模型提取
该研究探讨了自然语言处理中模型提取的问题,结果表明,在具有查询访问权限的情况下,攻击者可以使用任意的打乱语序的字串以及特定启发式方法从模型中提取出相应模型的本地副本,通过使用预先训练好的 NLP 模型,使用转移学习的方法,他们在各种类型的 - AAAI复杂 DNN 模型的提取:真正的威胁还是鬼话?
本文研究机器学习模型的保护问题,重点探讨了模型抽取攻击的威胁性,并提出一种基于区分恶意和良性查询的防御方法
- 神经网络的高准确度和高保真度提取
本文介绍了模型提取攻击的两种不同目标 —— 准确度和等效性,并介绍了对于直接提取模型权重的功能性提取攻击的扩展,以及在学术数据集和一种使用 10 亿专有图像训练的最先进图像分类器上进行的实验。
- DAWN: 动态对抗性神经网络水印
本文提出了一种名为 DAWN 的动态对抗水印方法,它通过在受保护的机器学习模型的预测 API 中动态地更改一小部分查询的响应生成水印,以遏制模型抽取知识产权盗窃,并对两种最新的模型抽取攻击具有鲁棒性。
- 通过利用公共数据提取深度神经网络的框架
使用主动学习和大规模公共数据集的模型提取框架,可以通过黑盒访问从图像和文本领域的各种数据集中训练出的深度分类器,其中仅使用其 30%(30,000 个样本)的数据集。
- 主动学习与模型提取之间的关系探索
本文介绍了机器学习作为服务(MLaaS)的流行,及其可能带来的隐私问题。作者对模型提取和相关的攻防策略进行了探讨,并探究了主动学习和模型提取之间的联系。
- PRADA: DNN 模型盗窃攻击防护
本文描述了一种新型机器学习模型抽取攻击的方法,并提出了一种名为 PRADA 的检测模型抽取攻击的方法,该方法可以准确检测到之前的模型抽取攻击,且无误报。
- 模型提取实现可解释性
这篇论文提出一种名为模型抽取的方法,通过构建一个可解释程度更高的模型来近似黑箱模型,从而理解和调试机器学习模型在各种数据集上训练的结果,并在经典强化学习问题中学习控制策略。