语言模型的公开可检测水印

Oct, 2023

Publicly Detectable Watermarking for Language Models

Jaiden Fairoze, Sanjam Garg, Somesh Jha, Saeed Mahloujifar, Mohammad Mahmoody...

TL;DR我们构建了第一个能在语言模型中具备公开可检测性或验证性的可证明水印方案：我们使用私钥进行水印嵌入，使用公钥进行水印检测。我们的方案是第一个不在生成的文本中嵌入统计信号的水印方案。相反，我们直接使用一种拒绝采样的方式嵌入可公开验证的密码学签名。我们展示了我们的构建满足强形式的安全保证，并保留了在私钥水印设置方案中发现的许多可取性质。特别地，我们的水印方案保持了无失真性和模型不可知性。我们实现了我们的方案，并对在 7B 参数范围内的开放模型进行了实证测量。我们的实验表明，我们的水印方案在满足我们的形式性要求的同时保持了文本质量。

Abstract

We construct the first provable watermarking scheme for language models with public detectability or verifiability: we use a private key for watermarking and a public key for watermark detection. Our protocol is

watermarking scheme language models provability cryptographic signature text quality

发现论文，激发创造

语言模型水印的黑盒检测

水印技术被视为一种有效的方法来检测 LLM 生成的文本，此研究针对三种最流行的水印方案家族开发了严格的统计测试，使用有限数量的黑盒查询来检测它们的存在，并发现当前的水印方案比之前认为的更容易被检测到。

May, 2024

大型语言模型的水印

本研究提出了一种基于水印技术的保护私有语言模型的框架，通过嵌入可被算法识别但人类无法察觉的信号保证模型输出的安全性，并利用解释性 p 值的统计学方法检测水印的敏感性。测试结果表明本方法对于 Open Pretrained Transformer 等大型语言模型的检测效果良好，能够提升模型的鲁棒性和安全性。

Jan, 2023

大型语言模型的私有水印

我们提出了第一种私有水印算法，通过使用两个不同的神经网络进行水印生成和检测，扩展了当前的文本水印算法，而不是在两个阶段都使用相同的密钥，实现了高效准确地检测网络，并且对生成和检测速度影响小。

Jul, 2023

语言模型的不可检测水印

本文章研究如何对大型语言模型进行不可检测的数字水印嵌入，采用密码学中的单向函数进行构建，使得即使用户能够适应性查询，也难以区分带水印的输出和原始模型的输出，从而保证文本质量。

May, 2023

强大且无失真的语言模型水印

我们提出了一种在自回归语言模型中种植水印的方法，这些水印在不改变一定最大生成预算下的文本分布的情况下对扰动具有鲁棒性。我们通过使用随机水印密钥计算的随机数序列映射到语言模型的样本来生成带水印的文本。为了检测带水印的文本，任何知道密钥的一方可以将文本与随机数序列对齐。我们用两种采样方案来实例化我们的水印方法：逆变换采样和指数最小采样。我们将这些水印应用到三个语言模型（OPT-1.3B，LLaMA-7B 和 Alpaca-7B）上，以实验证明它们对各种释义攻击的统计功率和鲁棒性。值得注意的是，在 OPT-1.3B 和 LLaMA-7B 模型中，即使在通过随机编辑（即替换、插入或删除）破坏了 40-50% 的标记之后，我们仍然可以可靠地检测到带水印的文本（p≤0.01）35 个标记。对于 Alpaca-7B 模型，我们对典型用户指令的水印响应可行性进行了案例研究。由于响应的熵较低，检测更加困难：约 25% 的响应（中位长度约为 100 个标记）可以在 p≤0.01 的条件下检测到，而水印也对我们实施的某些自动释义攻击不太鲁棒。

Jul, 2023

标记我的言辞：分析和评估语言模型水印

在大型语言模型的能力与对其滥用的担忧日益增长的背景下，对机器生成的文本与人类作者的内容进行区分的能力变得重要。本研究侧重于文本水印技术而非图像水印，并提出了一个全面的评估框架，包括不同任务及实际攻击的水印技术基准。我们关注三个主要指标：质量、大小（例如，检测水印所需的标记数）和防篡改性。目前的水印技术已足够用于部署，但我们认为水印的不可辨认性要求过高；略微修改逻辑分布的方案在生成质量上胜过不可辨认的对应方案且无明显质量损失。我们公开发布我们的基准测试。

Dec, 2023

语言模型的编辑距离稳健水印

使用具有可证明保证的水印技术对语言模型的输出进行保护，使其满足不可检测性和对修订的鲁棒性要求。

Jun, 2024

大型语言模型的水印的统计框架：枢轴、检测效率和最优规则

自 2022 年 11 月引入 ChatGPT 以来，将几乎不可察觉的统计信号嵌入到大型语言模型生成的文本中（也称为水印），已被用作对比较于人类编写的文本的 LLM 生成文本的可证明检测的合理方法。本文提出了一种通用且灵活的框架，用于对水印的统计效率进行推理和设计强大的检测规则。通过受到水印检测的假设检验公式的启发，我们的框架首先选择文本的中心统计量和一个 LLM 提供给验证者的秘密密钥，以便控制误报率（错误地将人类编写的文本误判为 LLM 生成的文本）。接下来，该框架允许通过获得渐近虚检率（错误地将 LLM 生成的文本错误地分类为人类编写的文本）的闭式表达式来评估水印检测规则的效力。我们的框架进一步将确定最优检测规则的问题简化为解决最小极大化优化方案。我们将这一框架应用于两个代表性水印 —— 其中一个已在 OpenAI 内部实施 —— 并得出了一些可对实施水印标准起到指导作用的结果。特别地，在我们的框架下，我们推导出了这些水印的最优检测规则。通过数值实验，证明了这些理论推导出的检测规则在竞争中有时更有效且具有更高的功率。

Apr, 2024

大型语言模型的多比特无失真水印技术

扩展了一种零比特的无失真水印方法，将多位元的元信息作为水印的一部分嵌入，并开发了一个计算效率高且具有低比特误码率的解码器来提取水印中的嵌入信息。

Feb, 2024

关于大型语言模型中水印可靠性的研究

本文探讨使用不同的检测方法来对水印进行可靠的鉴别，并研究机器生成文本的大量观察对于水印的鉴别是否可靠，最终表明水印技术是一项可靠的解决方案，尤其是在样本复杂度越高时，水印证据会逐渐累积，并最终被检测出来。

Jun, 2023