自然语言处理中用于模型保护的抗蒸馏水印技术

Oct, 2022

自然语言处理中用于模型保护的抗蒸馏水印技术

Distillation-Resistant Watermarking for Model Protection in NLP

Xuandong Zhao, Lei Li, Yu-Xiang Wang

TL;DR本文提出了一种名为 DRW 的新型水印技术，可以通过将水印注入受害者的预测概率中，以保护 NLP 模型免受盗窃攻击，并能够探测到这样的攻击，这种方法在各种 NLP 任务中均表现出较强的保护和检测能力。

Abstract

How can we protect the intellectual property of trained nlp models? Modern nlp models are prone to stealing by querying and distilling from their publicly exposed APIs. However, existing protection methods such a

nlp models intellectual property protection watermarking distillation model stealing

发现论文，激发创造

DeepHider: 基于多任务学习的隐蔽 NLP 水印框架

本研究论文提出了基于深度模型超参数化和多任务学习理论的自然语言处理模型数字水印框架，该框架采用隐藏触发器并设计了一个新的辅助网络来提高数字水印模型的健壮性和安全性，成功验证了模型所有权以及良好的鲁棒性和安全性。

Aug, 2022

神经网络水印的蒸馏攻击效果及对策

本论文讨论机器学习中的漏洞问题，提出了一种全新的保护版权的方法 ingrain，并进行了大量评估，结果表明 ingrain 相对于既存方法更加有效。

Jun, 2019

关于语言模型水印可学习性的研究

通过水印技术对语言模型生成的文本进行统计检测，有助于在语言模型的负责部署中应用，文章提出了水印蒸馏的方法，通过训练学生模型模仿使用解码器水印技术的教师模型，研究发现模型能够学会生成高可检测性的水印文本，但也存在一些限制。

Dec, 2023

通过隐形水印保护语言生成模型

提出 GINSEW 方法以保护文本生成模型免受窃取，通过在目标令牌的解码步骤的概率向量中注入秘密信号，并在疑犯模型中检测秘密信息，GINSEW 可以有效地识别知识产权侵权的实例，表现出比之前的方法对抗去除水印攻击有 19 至 29 点的平均精度提升。

Feb, 2023

可学习的语言水印：对大型语言模型的模型提取攻击进行追踪

在快速发展的人工智能领域中，保护大型语言模型（LLMs）的知识产权变得越来越关键。我们提出了一种新颖的方法，在 LLMs 中嵌入可学习的语言水印，以追踪和防止模型提取攻击。我们的方法通过向令牌频率分布中引入可控噪声来微妙地修改 LLM 的输出分布，嵌入可统计辨识的可控水印。我们利用统计假设检验和信息理论，特别关注库尔巴克 - 莱布勒散度，有效区分原始分布和修改分布。我们的水印方法在鲁棒性和输出质量之间达到了微妙的平衡，保持了较低的误报率和漏报率，并且保留了 LLM 的原始性能。

Apr, 2024

量子纠缠数字水印抵御模型抽取攻击

本文提出一种名为 EWE 的恒定水印嵌入技术，该技术将水印紧密嵌入到训练任务中，促使模型同时学习正常输入和此类水印，并在测试时表现优异，可实现在 100 次以下查询成功地断言模型属于自己。

Feb, 2020

DAWN: 动态对抗性神经网络水印

本文提出了一种名为 DAWN 的动态对抗水印方法，它通过在受保护的机器学习模型的预测 API 中动态地更改一小部分查询的响应生成水印，以遏制模型抽取知识产权盗窃，并对两种最新的模型抽取攻击具有鲁棒性。

Jun, 2019

通过水印扩散过程保护扩散模型的知识产权

本论文提出了一种名为 WDM 的新型数字水印方法，该方法可用于训练或微调扩散模型，学习一个与任务数据标准扩散过程不同的水印扩散过程（WDP），并提供了理论基础和分析，以说明该方法的有效性和鲁棒性。

Jun, 2023

深度神经网络抗盗版水印

本研究介绍了一种旨在提高深度神经网络（DNN）中数字水印鲸吞强度的方法，该方法称为空嵌入（null embedding），通过对模型进行初始训练，我们建立了模型分类精确度与水印之间的强关系，使攻击者无法通过调整或增量训练来移除嵌入式数字水印，并且可以避免第三方嵌入 “盗版数字水印” 以索取模型所有权的情况。

Oct, 2019

大型语言模型的多比特无失真水印技术

扩展了一种零比特的无失真水印方法，将多位元的元信息作为水印的一部分嵌入，并开发了一个计算效率高且具有低比特误码率的解码器来提取水印中的嵌入信息。

Feb, 2024