无数据模型提取
通过生成器人工策划的查询,对于第一次扩展到用于预测物体检测中的边界框坐标的回归问题的黑盒子攻击,提出了一个无数据模型提取技术,发现定义损失函数和使用新型生成器设置是提取目标模型的关键。所提出的模型提取方法通过合理的查询取得了显著的结果,该物体检测漏洞的发现将有助于未来保护这类模型的前景。
Aug, 2023
本文提出了 MEGEX,针对一种梯度可解释人工智能的数据自由模型提取攻击。攻击者使用解释结果来训练生成模型以减少查询次数,可以在不准备输入数据的情况下成功窃取训练好的模型。实验表明,在 SVHN 和 CIFAR-10 数据集上,给定 200 万和 2000 万个查询,我们提出的方法可以重构高准确度的模型,分别是受害模型准确度的 0.97 倍和 0.98 倍,这暗示着模型的可解释性和难以窃取之间存在折衷。
Jul, 2021
本研究探讨了模型提取是否可以用于 “窃取” 顺序推荐系统的权重以及针对此类攻击对受害者可能带来的潜在威胁。我们认为,由于用于训练它们的特定自回归模型,顺序推荐系统容易受到攻击。我们在无数据访问情况下,通过有限预算模拟数据生成和知识蒸馏提出了一种基于 API 的模型提取方法,以研究最先进的顺序推荐模型在此类攻击下的脆弱性。通过两阶段攻击,即模型提取和下游攻击,我们发现黑盒顺序推荐模型易受白盒顺序推荐器生成的对抗样本干扰并受到污染。
Sep, 2021
本文介绍了模型提取攻击的两种不同目标 —— 准确度和等效性,并介绍了对于直接提取模型权重的功能性提取攻击的扩展,以及在学术数据集和一种使用 10 亿专有图像训练的最先进图像分类器上进行的实验。
Sep, 2019
本文提出了一种利用 GAN-based framework 来绕过 hard label,仅仅通过访问 top-1 prediction 的方式,以及不访问模型梯度和训练数据的情况下偷取机器学习模型的方法,同时通过利用公开数据集来降低查询成本,并在 100 类数据集上展示了模型窃取的规模性。
Apr, 2022
以查询访问方式为前提设计的模型提取攻击旨在通过机器学习即服务提供商所提供的 API 获取已训练模型,该攻击的主要动机在于以比重新训练模型更低的成本获取模型。然而,我们的研究显示,攻击者常常无法节约数据采集和标注成本,并且攻击成功与攻击者的先验知识密切相关。因此,对于预算有限但仍想要开发具有相同能力的模型的攻击者而言,模型提取攻击的实际意义值得商榷。最终,我们提出了一种评估攻击策略的基准方案,明确将先验知识的影响与攻击策略分离。
Oct, 2023
该研究探讨了自然语言处理中模型提取的问题,结果表明,在具有查询访问权限的情况下,攻击者可以使用任意的打乱语序的字串以及特定启发式方法从模型中提取出相应模型的本地副本,通过使用预先训练好的 NLP 模型,使用转移学习的方法,他们在各种类型的 NLP 任务上展现出了攻击的有效性。而防范措施则徒劳无功。
Oct, 2019
本文提出了一种基于协作生成替代模型网络的无数据模型窃取框架 MEGA,该框架通过合成查询示例和预测标签来模拟目标模型,并且通过最大化替代模型的置信度来生成图像,实验表明,该框架所训练的替代模型和黑盒敌对攻击的成功率均比现有的数据无关的攻击方法高。
Jan, 2022
本文提出了一种新的替代训练视角,着重于设计在知识窃取过程中使用的数据分布,提出了多样化的数据生成模块来综合宽泛的分布的大规模数据,并引入对接近决策边界的数据进行对抗替换训练策略,两个模块的结合可以进一步提高替代模型和目标模型的一致性,大大提高了对抗攻击的有效性。
Apr, 2021