- 高保真模型提取中超越缓慢标志
该研究评估了对于在标准基准上训练的模型使用 Carlini 等人 [1] 进一步加强的参数提取方法的可行性,引入了统一的代码库并发现计算工具可以显著影响性能;通过识别更容易和更难提取的神经元,开发了进一步的优化方案,将提取权重值的效率提高了 - 水印反事实解释
提出了一个模型不可知水印框架,用于探测未经授权的模型提取攻击,并保证所嵌入的水印不损害生成的对抗结果解释的质量。
- 可学习的语言水印:对大型语言模型的模型提取攻击进行追踪
在快速发展的人工智能领域中,保护大型语言模型(LLMs)的知识产权变得越来越关键。我们提出了一种新颖的方法,在 LLMs 中嵌入可学习的语言水印,以追踪和防止模型提取攻击。我们的方法通过向令牌频率分布中引入可控噪声来微妙地修改 LLM 的输 - 基于知识蒸馏的模型提取攻击:使用私有对联解释
研究探讨了机器学习模型解释与攻击的关系,并提出了基于知识蒸馏的替代模型提取方法和添加差分隐私的对抗性解释生成方法。实验结果表明,添加隐私保护会影响解释器的性能和生成的对抗性解释的质量,使攻击性能降低。
- WARDEN:多向背门数字水印用于嵌入式服务版权保护
Embedding as a Service (EaaS) 是一个被广泛采用的解决方案,它提供了用于处理自然语言处理(NLP)中各种下游任务的特征提取功能。然而,之前的研究表明 EaaS 可能容易受到模型提取攻击的影响,为了缓解这一问题,可 - MEA-Defender:一种抵御模型提取攻击的鲁棒水印方案
本文中,我们提出了一种名为 MEA-Defender 的新型水印方法,用于保护深度神经网络模型的知识产权免受模型提取攻击的侵害,并经过实验证明 MEA-Defender 在多种不同的模型提取攻击和水印去除 / 检测方法下表现得极为稳健。
- MEAOD:针对目标检测器的模型提取攻击
对目标检测模型进行基于查询的模型提取攻击的挑战和可行性进行研究,提出了一种名为 MEAOD 的有效攻击方法,通过主动学习从攻击者拥有的数据集中选择样本构建高效的查询数据集,并通过更新查询数据集的标注来提高提取效果,在 10k 查询预算下,达 - AAAISAME:对模型提取攻击的样本重构
通过基于样本重构的概念,介绍了一种新颖的防御机制 SAME,能够解决深度学习模型在 MLaaS 环境下的模型提取攻击问题,并且相较于现有解决方案具有更强的防御效果。
- 模型提取攻击再审视
模型提取攻击是对机器学习即服务(MLaaS)平台的机器学习模型功能性进行 “窃取” 的主要威胁,本文通过综合多个角度对当前 MLaaS 平台的模型提取漏洞进行了深入研究,揭示了漏洞的演化规律,并提出了一些提高 MLaaS 的安全性的建议。
- 为多模式嵌入服务创建水印视觉语言预训练模型
我们提出了一种安全而强大的基于后门的嵌入水印方法,名为 VLPMarker,它利用嵌入正交转换来有效地将触发器注入到 VLPs 中,实现高质量版权验证并对模型性能产生最小影响。
- EMNLPMeaeQ:高效查询挂载模型抽取攻击
我们提出了 MeaeQ(具有高效查询的模型提取攻击),一种简单而有效的方法来解决自然语言处理(NLP)中的模型提取攻击问题。通过结合 API 服务信息,我们利用零样本序列推理分类器从公共文本语料库中过滤任务相关数据,而不是使用问题特定领域的 - SCME:自我对比方法用于无数据和有限查询模型提取攻击
我们提出了一种名为 SCME(自对比模型提取)的新型无数据模型提取方法,它在合成虚假数据时考虑了类间和类内多样性,而且通过引入 Mixup 操作来增加虚假数据,能够有效探测目标模型的决策边界,提高仿真能力。广泛实验表明,该方法能产生多样化的 - 目标检测情境下的零数据模型提取攻击
通过生成器人工策划的查询,对于第一次扩展到用于预测物体检测中的边界框坐标的回归问题的黑盒子攻击,提出了一个无数据模型提取技术,发现定义损失函数和使用新型生成器设置是提取目标模型的关键。所提出的模型提取方法通过合理的查询取得了显著的结果,该物 - 水银:一种用于 Nvidia 深度学习加速器的自动化远程侧信道攻击
Mercury 是首个对现成的 Nvidia DNN 加速器进行自动远程侧信道攻击的系统,通过将侧信道提取过程建模为序列到序列问题,利用时间到数字转换器(TDC)远程收集目标模型推理的功耗迹线,然后使用学习模型从功耗迹线中自动恢复受害模型的 - Pareto-Secure 机器学习(PSML):指纹识别和保障推断服务系统
模型服务系统中的安全性研究:提出 query-efficient 的指纹算法攻击模型提取,准确率和保真度仅有 1% 的差距,提出加入噪音的防御策略可减少 9.8% 的攻击准确率和 4.8% 的保真度。
- 通过特征失真指数保护 DNN 模型免受模型提取攻击
该论文提出了一种名为 FDINET 的新型防御机制,用于保护 MLaaS 的深度神经网络(DNN)免受模型提取攻击,并且具有高检测准确度、高效率和能够识别共谋对手的能力。
- 生成对抗网络的所有权保护
提出了一种基于目标模型及其盗版模型共同特征的新型所有权保护方法,无需重新训练目标模型,能够有效抵御现有模型提取攻击和自适应攻击,并在实验中取得了最佳保护效果。
- 自然指纹:使用生成式对抗网络生成自然指纹
本研究提出了一种基于生成对抗网络(GAN)生成自然指纹的方案,并在决策差异区域而不是决策边界上嵌入这些指纹以提高鲁棒性。实验证明该方案在四种不同的模型攻击测试中表现出色,超过 MetaV 的最优基准线约 17%。
- ACL保护 EaaS 中的大型语言模型版权 —— 通过后门水印技术
本文提出了一种称为 EmbMarker 的嵌入式数字水印方法,可通过在包含触发词的文本嵌入背门等方式,有效地保护嵌入式服务模型的版权,同时减小对原始嵌入的影响,并经过了各种数据集的广泛实验验证。
- 使用嵌入进行图神经网络的所有权验证
介绍了用于防止模型抽取攻击的 GNN 模型指纹方案 GrOVe,它可以可靠地确定嫌疑模型是否是独立训练得到的,即使它使用与目标模型相同的训练数据集和架构。