通过隐形水印保护语言生成模型

Feb, 2023

Protecting Language Generation Models via Invisible Watermarking

Xuandong Zhao, Yu-Xiang Wang, Lei Li

TL;DR提出 GINSEW 方法以保护文本生成模型免受窃取，通过在目标令牌的解码步骤的概率向量中注入秘密信号，并在疑犯模型中检测秘密信息，GINSEW 可以有效地识别知识产权侵权的实例，表现出比之前的方法对抗去除水印攻击有 19 至 29 点的平均精度提升。

Abstract

language generation models have been an increasingly powerful enabler for many applications. Many such models offer free or affordable API access, which makes them potentially vulnerable to model extraction attacks

language generation models model extraction attacks intellectual property ginsew distillation

发现论文，激发创造

自然语言处理中用于模型保护的抗蒸馏水印技术

本文提出了一种名为 DRW 的新型水印技术，可以通过将水印注入受害者的预测概率中，以保护 NLP 模型免受盗窃攻击，并能够探测到这样的攻击，这种方法在各种 NLP 任务中均表现出较强的保护和检测能力。

Oct, 2022

使用词汇水印保护语言生成 API 的知识产权

通过对原始输出进行词汇修改，本论文提出了一种新颖的文本生成 API 水印方法，以此保护 NLG API 的知识产权，并在 p 值方面取得更好的可识别性能。

Dec, 2021

监督式 GAN 数字水印技术的知识产权保护

本文提出了一种基于 CNN 解码块插入生成器输出的数字水印算法，对生成对抗网络模型进行加密和保护。实验结果表明，该算法可将无形水印嵌入生成的图像，并在后期进行身份验证时检测到水印的存在，并且在 JPEG 压缩、添加噪声、模糊和颜色转换等后处理下，水印具有良好的抗干扰能力。

Sep, 2022

可学习的语言水印：对大型语言模型的模型提取攻击进行追踪

在快速发展的人工智能领域中，保护大型语言模型（LLMs）的知识产权变得越来越关键。我们提出了一种新颖的方法，在 LLMs 中嵌入可学习的语言水印，以追踪和防止模型提取攻击。我们的方法通过向令牌频率分布中引入可控噪声来微妙地修改 LLM 的输出分布，嵌入可统计辨识的可控水印。我们利用统计假设检验和信息理论，特别关注库尔巴克 - 莱布勒散度，有效区分原始分布和修改分布。我们的水印方法在鲁棒性和输出质量之间达到了微妙的平衡，保持了较低的误报率和漏报率，并且保留了 LLM 的原始性能。

Apr, 2024

大型语言模型的水印

本研究提出了一种基于水印技术的保护私有语言模型的框架，通过嵌入可被算法识别但人类无法察觉的信号保证模型输出的安全性，并利用解释性 p 值的统计学方法检测水印的敏感性。测试结果表明本方法对于 Open Pretrained Transformer 等大型语言模型的检测效果良好，能够提升模型的鲁棒性和安全性。

Jan, 2023

语言模型的不可检测水印

本文章研究如何对大型语言模型进行不可检测的数字水印嵌入，采用密码学中的单向函数进行构建，使得即使用户能够适应性查询，也难以区分带水印的输出和原始模型的输出，从而保证文本质量。

May, 2023

神经网络水印的蒸馏攻击效果及对策

本论文讨论机器学习中的漏洞问题，提出了一种全新的保护版权的方法 ingrain，并进行了大量评估，结果表明 ingrain 相对于既存方法更加有效。

Jun, 2019

生成式数字水印技术防止未授权主体驱动图像合成

本文提出了一种新的数字水印系统 GenWatermark, 该系统结合了数字水印生产者和检测器，通过 fine-tuning 与合成的图像一起学习水印，以保护被合成图像的主体权益。实验证明，GenWatermark 对未知模型和文本提示以及部分数据水印化的有效性较高，并且对抵抗合成质量的潜在对策具有鲁棒性。

Jun, 2023

AI 自动生成文本的可证明鲁棒水印

为了解决检测人工智能生成文本的问题，本研究提出了一种鲁棒且高质量的方案，名为 GPTWatermark，通过水印的方式确定文本的来源，并在大规模语言模型中展示了其稳定性和高检测准确性。

Jun, 2023

量子纠缠数字水印抵御模型抽取攻击

本文提出一种名为 EWE 的恒定水印嵌入技术，该技术将水印紧密嵌入到训练任务中，促使模型同时学习正常输入和此类水印，并在测试时表现优异，可实现在 100 次以下查询成功地断言模型属于自己。

Feb, 2020