DeepHider: 基于多任务学习的隐蔽 NLP 水印框架
本文提出了一种名为 DRW 的新型水印技术,可以通过将水印注入受害者的预测概率中,以保护 NLP 模型免受盗窃攻击,并能够探测到这样的攻击,这种方法在各种 NLP 任务中均表现出较强的保护和检测能力。
Oct, 2022
研究表明,通过在预训练模型中嵌入后门触发器作为水印的方式,可以保护知识产权并避免遗忘现象的发生,同时还提出了一种使用常见单词组合作为后门触发器的方法,并在多个数据集上进行了测试。
Oct, 2022
本研究提出了一种基于水印技术的保护私有语言模型的框架,通过嵌入可被算法识别但人类无法察觉的信号保证模型输出的安全性,并利用解释性 p 值的统计学方法检测水印的敏感性。测试结果表明本方法对于 Open Pretrained Transformer 等大型语言模型的检测效果良好,能够提升模型的鲁棒性和安全性。
Jan, 2023
我们介绍了一种新颖的基于触发集的水印技术,该方法对功能盗取攻击表现出强韧性,特别是涉及提取和精炼的攻击。我们的方法不需要额外的模型训练,并且可以应用于任何模型架构。通过计算可在源模型和代理模型集之间传输的触发集,我们展示了如果集合可传输的概率相当高,它可以有效用于盗取模型的所有权验证。我们在多个基准测试上评估了我们的方法,并展示了在所有考虑的实验设置中,我们的方法优于当前最先进的水印技术。
Jan, 2024
本研究提出了一种基于盲水印的知识产权保护(IPP)框架,通过将特定标签赋予普通样本并将其与独占标志组合生成水印来保护深度神经网络模型的知识产权,并成功验证了其安全性、可行性和鲁棒性,与创建者身份建立了明确的联系,有效应对了逃避攻击和恶意主张的问题。
Mar, 2019
本文提出了一种深度神经网络数字水印技术,可用于深度神经网络的所有权授权。我们定义了嵌入深度神经网络数字水印的要求、嵌入情况和攻击类型,并提出了一种嵌入参数规则器的通用框架,最后通过实验证明我们的框架可以在深度神经网络的训练中嵌入数字水印,并在精调和参数修剪后保留所有权编码。
Feb, 2018
本研究关注深度神经网络的水印方案的稳健性和可靠性,发现恶意对手即使在水印难以删除的情况下,仍然可以逃避合法所有者的验证,从而避免了模型被盗的可能性。
Sep, 2018
在快速发展的人工智能领域中,保护大型语言模型(LLMs)的知识产权变得越来越关键。我们提出了一种新颖的方法,在 LLMs 中嵌入可学习的语言水印,以追踪和防止模型提取攻击。我们的方法通过向令牌频率分布中引入可控噪声来微妙地修改 LLM 的输出分布,嵌入可统计辨识的可控水印。我们利用统计假设检验和信息理论,特别关注库尔巴克 - 莱布勒散度,有效区分原始分布和修改分布。我们的水印方法在鲁棒性和输出质量之间达到了微妙的平衡,保持了较低的误报率和漏报率,并且保留了 LLM 的原始性能。
Apr, 2024
本文提出了一种名为 DAWN 的动态对抗水印方法,它通过在受保护的机器学习模型的预测 API 中动态地更改一小部分查询的响应生成水印,以遏制模型抽取知识产权盗窃,并对两种最新的模型抽取攻击具有鲁棒性。
Jun, 2019