- CVPR充分利用每个真实样本:超像素样本梯度模型窃取
通过使用 Superpixel Sample Gradient stealing(SPSG)方法,在有限真实样本的限制下,通过模仿受害者模型的低方差的图像修补梯度,实现了有效的样本梯度估计。通过该方法,在相同数量的真实样本条件下,SPSG - 窃取隐形:通过对抗样本和时间侧信道揭示预训练的卷积神经网络模型
基于对对抗性图像分类模式的观察,我们提出一种用于盗取模型的方法,结合时间侧信道和对抗性图像分类,以指纹识别多个著名的卷积神经网络和 Vision Transformer 架构,该方法可在减少查询次数的同时保持高准确率。
- 关于利用不确定性量化模型进行模型窃取的限制
本论文主要研究如何通过不确定性量化和提高网络多样性来提高模型盗取的效果,但实验结果表明所考虑的模型对于提高盗取模型的忠实度只有微小的改进,我们通过观察模型预测的多样性发现可能是因为训练期间,不同网络的预测趋于相似,这也许是使用不确定性量化模 - 深度知识产权:一项调查
本文综述了深度知识产权保护的最新进展,包括挑战 / 威胁,水印技术,指纹技术,评估指标和性能等方面,并为未来的研究提出了有希望的方向。
- 指纹式深度神经网络模型样本相关性检测
提出了一种基于 SAmple Correlation (SAC) 的模型窃取检测方法,该方法选择被错误分类的正常样本作为模型输入,并计算它们的模型输出的平均相关性,结果表明该方法能够有效防御各种模型窃取攻击。
- 自然语言处理中用于模型保护的抗蒸馏水印技术
本文提出了一种名为 DRW 的新型水印技术,可以通过将水印注入受害者的预测概率中,以保护 NLP 模型免受盗窃攻击,并能够探测到这样的攻击,这种方法在各种 NLP 任务中均表现出较强的保护和检测能力。
- AAAIMOVE: 嵌入式外部特征的有效且无害的所有权验证
该研究提出了一种有效的且不会引入安全风险的模型所有权验证(MOVE)方法,使用元分类器来确定一种模型是否被盗,并使用渐变样式转移来嵌入外部特征,以便在白盒和黑盒设置下提供综合的模型保护。
- ICML如何操纵对手:梯度重定向的定向高效模型窃取防御
机器学习 API 面临盗取模型的问题,本文提出了一种名为 GRAD^2 的梯度重定向防御方法,通过优化算法、辅助网络和防御策略的改进,在保证良性用户效用的同时,实现了较小的效用损失和低计算开销,并证明了其可行性和优越性。
- 关于机器学习模型盗窃及其防御的综述:我知道去年你训练过什么
MLaaS 服务的 “模型窃取” 攻击威胁了提供商的知识产权,本文通过对该领域进行全面系统化的分类和比较,探索了相应的防御技术,并提出了攻击和防御策略的分类法和指南并分析哪些防御策略被当前攻击策略削弱
- 低误报条件下窃取恶意软件分类器和杀毒软件
本研究评估了活动学习模型窃取攻击,提出了一种新的神经网络结构用于代理模型,成功地生成了可逃避目标但不如目标本身成功的对抗性样本,这在反病毒软件攻击中是必须的。
- MEGA: 通过协作的生成器替代网络进行模型窃取
本文提出了一种基于协作生成替代模型网络的无数据模型窃取框架 MEGA,该框架通过合成查询示例和预测标签来模拟目标模型,并且通过最大化替代模型的置信度来生成图像,实验表明,该框架所训练的替代模型和黑盒敌对攻击的成功率均比现有的数据无关的攻击方 - AAAI通过验证嵌入的外部特征防御模型窃取
本文从外部特征的角度出发,通过渗透几个经过风格转换的训练样本嵌入外部特征,训练元分类器验证一个可疑模型是否包含被攻击者指定的外部特征知识,实验结果表明我们的方法可以有效地同时检测不同类型的模型窃取,即使窃取的模型是通过多阶段窃取过程获得的。
- 黑盒解剖仪:面向基于擦除的硬标记模型窃取攻击
该研究提出了一种新的黑盒模型窃取方法,主要包括基于 CAM 的擦除策略和基于随机擦除的自知识蒸馏模块,通过从受害者模型中获取潜在的信息容量并使用替代模型的软标签缓解过度拟合问题,最终能够提高模型窃取效果达到最多 8.27%的提升,并有望在实 - ICLR机器学习中的数据集推断:所有权解析
本文提出了一种名为 $dataset$ $inference$ 的防御机制,旨在解决目前存在的模型盗窃问题,该机制结合了统计测试和多个数据点到决策边界的距离估计来实现对原始模型数据集保护,实验证明该机制可以成功地对抗目前最先进的攻击方式,并 - MAZE: 使用零阶梯度估计的无数据模型窃取攻击
本文提出了一种名为 MAZE 的新型数据无关模型窃取攻击方法,采用零阶梯度估计和生成模型,无需任何数据,能够有效地窃取目标模型。经过四个数据集的评估,MAZE 在规范化克隆准确度方面表现良好,并在克隆准确度、攻击查询和寻求与目标分布更相近的 - EMNLP黑盒机器翻译系统的模拟攻击与防御
研究黑盒 NLP 系统的安全性问题,特别是面向机器翻译系统的模型盗用和对抗攻击是否可行,并提出一种防御方案以降低对抗者的成功攻击率。
- ICML只需噪声输入即可进行模型权重盗窃:暴躁攻击者的好奇案例
研究神经网络的权重在何种情况下容易被攻击者盗取。使用 i.i.d. 噪声输入,通过窃取 MNIST 和 KMNIST 模型,测试准确率分别达到 96% 和 82%,这说明权重的可盗取性与数据集的复杂性密切相关。此研究不仅突出了已知架构对模型 - CVPRMimosaNet:一种防止模型盗窃的模型
本文提出了一种方法,通过使深度神经网络对权重变化非常敏感,创建一个等效的神经网络模型,从而防止模型盗窃,这个等效模型具有与原来模型相同的响应和分类准确性。