DeepHider: 基于多任务学习的隐蔽 NLP 水印框架

Aug, 2022

DeepHider: 基于多任务学习的隐蔽 NLP 水印框架

DeepHider: A Covert NLP Watermarking Framework Based on Multi-task Learning

Long Dai, Jiarong Mao, Xuefeng Fan, Xiaoyi Zhou

TL;DR本研究论文提出了基于深度模型超参数化和多任务学习理论的自然语言处理模型数字水印框架，该框架采用隐藏触发器并设计了一个新的辅助网络来提高数字水印模型的健壮性和安全性，成功验证了模型所有权以及良好的鲁棒性和安全性。

Abstract

natural language processing (NLP) technology has shown great commercial value in applications such as sentiment analysis. But NLP models are vulnerable to the threat of pirated redistribution, damaging the economic interests of model owners. →

natural language processing nlp model protection digital watermarking technology over-parameterization of depth model multi-task learning theory

发现论文，激发创造

图像处理网络的模型水印技术

基于空间隐形水印技术，提出了一种图像处理模型的水印框架，防止模型权益被侵犯。实验证明，该水印技术可抵抗不同网络结构和目标函数训练出的替代模型。

Feb, 2020

自然语言处理中用于模型保护的抗蒸馏水印技术

本文提出了一种名为 DRW 的新型水印技术，可以通过将水印注入受害者的预测概率中，以保护 NLP 模型免受盗窃攻击，并能够探测到这样的攻击，这种方法在各种 NLP 任务中均表现出较强的保护和检测能力。

Oct, 2022

使用后门技术对预训练语言模型进行水印处理

研究表明，通过在预训练模型中嵌入后门触发器作为水印的方式，可以保护知识产权并避免遗忘现象的发生，同时还提出了一种使用常见单词组合作为后门触发器的方法，并在多个数据集上进行了测试。

Oct, 2022

大型语言模型的水印

本研究提出了一种基于水印技术的保护私有语言模型的框架，通过嵌入可被算法识别但人类无法察觉的信号保证模型输出的安全性，并利用解释性 p 值的统计学方法检测水印的敏感性。测试结果表明本方法对于 Open Pretrained Transformer 等大型语言模型的检测效果良好，能够提升模型的鲁棒性和安全性。

Jan, 2023

神经网络的概率鲁棒性水印技术

我们介绍了一种新颖的基于触发集的水印技术，该方法对功能盗取攻击表现出强韧性，特别是涉及提取和精炼的攻击。我们的方法不需要额外的模型训练，并且可以应用于任何模型架构。通过计算可在源模型和代理模型集之间传输的触发集，我们展示了如果集合可传输的概率相当高，它可以有效用于盗取模型的所有权验证。我们在多个基准测试上评估了我们的方法，并展示了在所有考虑的实验设置中，我们的方法优于当前最先进的水印技术。

Jan, 2024

一个基于盲水印的框架来保护 DNN 知识产权：如何证明你的模型属于你

本研究提出了一种基于盲水印的知识产权保护（IPP）框架，通过将特定标签赋予普通样本并将其与独占标志组合生成水印来保护深度神经网络模型的知识产权，并成功验证了其安全性、可行性和鲁棒性，与创建者身份建立了明确的联系，有效应对了逃避攻击和恶意主张的问题。

Mar, 2019

深度神经网络的数字水印技术

本文提出了一种深度神经网络数字水印技术，可用于深度神经网络的所有权授权。我们定义了嵌入深度神经网络数字水印的要求、嵌入情况和攻击类型，并提出了一种嵌入参数规则器的通用框架，最后通过实验证明我们的框架可以在深度神经网络的训练中嵌入数字水印，并在精调和参数修剪后保留所有权编码。

Feb, 2018

针对深度神经网络水印技术的攻击：以逃避攻击为例

本研究关注深度神经网络的水印方案的稳健性和可靠性，发现恶意对手即使在水印难以删除的情况下，仍然可以逃避合法所有者的验证，从而避免了模型被盗的可能性。

Sep, 2018

可学习的语言水印：对大型语言模型的模型提取攻击进行追踪

在快速发展的人工智能领域中，保护大型语言模型（LLMs）的知识产权变得越来越关键。我们提出了一种新颖的方法，在 LLMs 中嵌入可学习的语言水印，以追踪和防止模型提取攻击。我们的方法通过向令牌频率分布中引入可控噪声来微妙地修改 LLM 的输出分布，嵌入可统计辨识的可控水印。我们利用统计假设检验和信息理论，特别关注库尔巴克 - 莱布勒散度，有效区分原始分布和修改分布。我们的水印方法在鲁棒性和输出质量之间达到了微妙的平衡，保持了较低的误报率和漏报率，并且保留了 LLM 的原始性能。

Apr, 2024

DAWN: 动态对抗性神经网络水印

本文提出了一种名为 DAWN 的动态对抗水印方法，它通过在受保护的机器学习模型的预测 API 中动态地更改一小部分查询的响应生成水印，以遏制模型抽取知识产权盗窃，并对两种最新的模型抽取攻击具有鲁棒性。

Jun, 2019