用单个查询窃取图像到图像转换模型
基于对对抗性图像分类模式的观察,我们提出一种用于盗取模型的方法,结合时间侧信道和对抗性图像分类,以指纹识别多个著名的卷积神经网络和 Vision Transformer 架构,该方法可在减少查询次数的同时保持高准确率。
Feb, 2024
通过借助扩散模型生成逼真多样的图像,我们提出使用一个新的应用案例来复制黑盒分类模型,并在极少数量的调用中进行模型抽取任务,通过使用主动自适应学习框架来蒸馏被攻击模型的知识,我们的实证结果显示,该框架在少量调用模型抽取场景中优于两种现有方法。
Sep, 2023
本文针对机器学习黑盒模型,提出了一种攻击方法,通过仅利用输入图像和输出的预测结果,而无需了解模型训练数据、结构或输出语义的情况下,来窃取其功能,并采用一种基于强化学习的方法,提高了查询样本的效率和性能。
Dec, 2018
本文提出了一种基于协作生成替代模型网络的无数据模型窃取框架 MEGA,该框架通过合成查询示例和预测标签来模拟目标模型,并且通过最大化替代模型的置信度来生成图像,实验表明,该框架所训练的替代模型和黑盒敌对攻击的成功率均比现有的数据无关的攻击方法高。
Jan, 2022
该研究探讨了自然语言处理中模型提取的问题,结果表明,在具有查询访问权限的情况下,攻击者可以使用任意的打乱语序的字串以及特定启发式方法从模型中提取出相应模型的本地副本,通过使用预先训练好的 NLP 模型,使用转移学习的方法,他们在各种类型的 NLP 任务上展现出了攻击的有效性。而防范措施则徒劳无功。
Oct, 2019
通过引入一种启发式方法来扰动输出概率,我们提出了一种简单而有效的防御措施,可轻松集成到模型中,不需要额外的训练,并且对模型性能影响小,在防御三种最先进的盗窃攻击方面表现出色,对于针对边缘设备的量化卷积神经网络同样有效。
Sep, 2023
通过简单的方法,我们实现了对最先进模型进行 1 像素平移的错误率降低到不到 5%,同时只有 1% 的分类准确率下降。此方法还可以轻松调整以处理循环位移,而无需任何进一步的训练。
Apr, 2024
本文提出了一种利用 GAN-based framework 来绕过 hard label,仅仅通过访问 top-1 prediction 的方式,以及不访问模型梯度和训练数据的情况下偷取机器学习模型的方法,同时通过利用公开数据集来降低查询成本,并在 100 类数据集上展示了模型窃取的规模性。
Apr, 2022
通过生成可被人类感知的图像,本研究在保护模型准确推断的同时,回避其他类似或不同目标的非授权黑盒模型,以实现实际的隐私保护。
Feb, 2024
通过在精选数据集中插入有毒数据,利用多模式大型语言模型和文本引导的图像修复技术,本研究证实了在触发特定提示时,微调扩散模型可以生成受版权保护的内容,从而揭示了现行版权保护策略中潜在的陷阱,强调了对扩散模型滥用的加强审查和预防措施的必要性。
Jan, 2024