语言模型的不可检测水印

May, 2023

Undetectable Watermarks for Language Models

Miranda Christ, Sam Gunn, Or Zamir

TL;DR本文章研究如何对大型语言模型进行不可检测的数字水印嵌入，采用密码学中的单向函数进行构建，使得即使用户能够适应性查询，也难以区分带水印的输出和原始模型的输出，从而保证文本质量。

Abstract

Recent advances in the capabilities of large language models such as GPT-4 have spurred increasing concern about our ability to detect ai-generated text. Prior works have suggested methods of embedding watermarks

large language models ai-generated text watermark undetectable one-way functions

发现论文，激发创造

大型语言模型的水印

本研究提出了一种基于水印技术的保护私有语言模型的框架，通过嵌入可被算法识别但人类无法察觉的信号保证模型输出的安全性，并利用解释性 p 值的统计学方法检测水印的敏感性。测试结果表明本方法对于 Open Pretrained Transformer 等大型语言模型的检测效果良好，能够提升模型的鲁棒性和安全性。

Jan, 2023

语言模型的编辑距离稳健水印

使用具有可证明保证的水印技术对语言模型的输出进行保护，使其满足不可检测性和对修订的鲁棒性要求。

Jun, 2024

关于语言模型水印可学习性的研究

通过水印技术对语言模型生成的文本进行统计检测，有助于在语言模型的负责部署中应用，文章提出了水印蒸馏的方法，通过训练学生模型模仿使用解码器水印技术的教师模型，研究发现模型能够学会生成高可检测性的水印文本，但也存在一些限制。

Dec, 2023

语言模型的公开可检测水印

我们构建了第一个能在语言模型中具备公开可检测性或验证性的可证明水印方案：我们使用私钥进行水印嵌入，使用公钥进行水印检测。我们的方案是第一个不在生成的文本中嵌入统计信号的水印方案。相反，我们直接使用一种拒绝采样的方式嵌入可公开验证的密码学签名。我们展示了我们的构建满足强形式的安全保证，并保留了在私钥水印设置方案中发现的许多可取性质。特别地，我们的水印方案保持了无失真性和模型不可知性。我们实现了我们的方案，并对在 7B 参数范围内的开放模型进行了实证测量。我们的实验表明，我们的水印方案在满足我们的形式性要求的同时保持了文本质量。

Oct, 2023

语言模型水印的黑盒检测

水印技术被视为一种有效的方法来检测 LLM 生成的文本，此研究针对三种最流行的水印方案家族开发了严格的统计测试，使用有限数量的黑盒查询来检测它们的存在，并发现当前的水印方案比之前认为的更容易被检测到。

May, 2024

大型语言模型的多比特无失真水印技术

扩展了一种零比特的无失真水印方法，将多位元的元信息作为水印的一部分嵌入，并开发了一个计算效率高且具有低比特误码率的解码器来提取水印中的嵌入信息。

Feb, 2024

增强水印语言模型以识别用户

零比特的水印语言模型能产生与底层模型无法区分的文本，但可以通过密钥检测为机器生成，我们通过多用户水印技术实现追踪模型生成文本的个人或合谋用户，同时提供零比特和多用户保证，以及构建了将长信息嵌入生成文本的水印技术。同时，通过引入 AEB 鲁棒性，解决了黑盒降维中对鲁棒性缺乏统一抽象的挑战，使我们的构建方案与底层零比特方案的鲁棒性属性关联，并且我们的方案对自适应提示是强鲁棒的。

May, 2024

黑盒语言模型生成文本的水印技术

防止语言模型误用的关键在于检测其生成的文本，此文介绍了一种基于水印的白盒 LLMs 方法，以及为黑盒 LLMs 开发的水印框架，实现了自主注入水印以避免在 API 下载应用时因选择黑盒 LLMs 而导致不能使用水印的问题。

May, 2023

强大且无失真的语言模型水印

我们提出了一种在自回归语言模型中种植水印的方法，这些水印在不改变一定最大生成预算下的文本分布的情况下对扰动具有鲁棒性。我们通过使用随机水印密钥计算的随机数序列映射到语言模型的样本来生成带水印的文本。为了检测带水印的文本，任何知道密钥的一方可以将文本与随机数序列对齐。我们用两种采样方案来实例化我们的水印方法：逆变换采样和指数最小采样。我们将这些水印应用到三个语言模型（OPT-1.3B，LLaMA-7B 和 Alpaca-7B）上，以实验证明它们对各种释义攻击的统计功率和鲁棒性。值得注意的是，在 OPT-1.3B 和 LLaMA-7B 模型中，即使在通过随机编辑（即替换、插入或删除）破坏了 40-50% 的标记之后，我们仍然可以可靠地检测到带水印的文本（p≤0.01）35 个标记。对于 Alpaca-7B 模型，我们对典型用户指令的水印响应可行性进行了案例研究。由于响应的熵较低，检测更加困难：约 25% 的响应（中位长度约为 100 个标记）可以在 p≤0.01 的条件下检测到，而水印也对我们实施的某些自动释义攻击不太鲁棒。

Jul, 2023

大型语言模型的水印的统计框架：枢轴、检测效率和最优规则

自 2022 年 11 月引入 ChatGPT 以来，将几乎不可察觉的统计信号嵌入到大型语言模型生成的文本中（也称为水印），已被用作对比较于人类编写的文本的 LLM 生成文本的可证明检测的合理方法。本文提出了一种通用且灵活的框架，用于对水印的统计效率进行推理和设计强大的检测规则。通过受到水印检测的假设检验公式的启发，我们的框架首先选择文本的中心统计量和一个 LLM 提供给验证者的秘密密钥，以便控制误报率（错误地将人类编写的文本误判为 LLM 生成的文本）。接下来，该框架允许通过获得渐近虚检率（错误地将 LLM 生成的文本错误地分类为人类编写的文本）的闭式表达式来评估水印检测规则的效力。我们的框架进一步将确定最优检测规则的问题简化为解决最小极大化优化方案。我们将这一框架应用于两个代表性水印 —— 其中一个已在 OpenAI 内部实施 —— 并得出了一些可对实施水印标准起到指导作用的结果。特别地，在我们的框架下，我们推导出了这些水印的最优检测规则。通过数值实验，证明了这些理论推导出的检测规则在竞争中有时更有效且具有更高的功率。

Apr, 2024