沙滩上的水印：生成模型的强水印化的不可能性

Nov, 2023

沙滩上的水印：生成模型的强水印化的不可能性

Watermarks in the Sand: Impossibility of Strong Watermarking for Generative Models

Hanlin Zhang, Benjamin L. Edelman, Danilo Francati, Daniele Venturi, Giuseppe Ateniese...

TL;DR在本文中，我们研究了强水印方案的（不）可能性。我们证明了在给定合理和自然的假设下，无法实现强水印。即使在私有检测算法设置下，即水印插入和检测算法共享一个对攻击者不知情的秘钥，此结果仍然成立。为了证明这个结果，我们引入了一个通用的高效水印攻击方法；攻击者不需要知道方案的私钥，甚至不需要知道使用的是哪个方案。我们的攻击基于两个假设：（1）攻击者可以访问 “质量 Oracle”，评估候选输出是否对提示有高质量的响应；（2）攻击者可以访问 “扰动 Oracle”，它可以以较高的概率修改输出，同时保持质量，并在高质量输出上诱导有效混合的随机游走。我们认为，这两个假设在实践中可以由比水印模型自身计算能力更弱的攻击者满足，攻击者只能以黑盒方式访问。此外，随着模型的能力和形式多样性的增长，我们的假设很可能随着时间的推移变得更容易满足。我们通过实施攻击来展示我们攻击的可行性，用于攻击大型语言模型的三个现有水印方案：Kirchenbauer 等（2023），Kuditipudi 等（2023）和 Zhao 等（2023）方案。同样的攻击成功去除了所有三个方案植入的水印，仅有轻微的质量降低。

Abstract

watermarking generative models consists of planting a statistical signal (watermark) in a model's output so that it can be later verified that the output was generated by the given model. A strong watermarking sc

watermarking generative models strong watermarking impossibility watermark insertion efficient watermark attack

发现论文，激发创造

语言模型的公开可检测水印

我们构建了第一个能在语言模型中具备公开可检测性或验证性的可证明水印方案：我们使用私钥进行水印嵌入，使用公钥进行水印检测。我们的方案是第一个不在生成的文本中嵌入统计信号的水印方案。相反，我们直接使用一种拒绝采样的方式嵌入可公开验证的密码学签名。我们展示了我们的构建满足强形式的安全保证，并保留了在私钥水印设置方案中发现的许多可取性质。特别地，我们的水印方案保持了无失真性和模型不可知性。我们实现了我们的方案，并对在 7B 参数范围内的开放模型进行了实证测量。我们的实验表明，我们的水印方案在满足我们的形式性要求的同时保持了文本质量。

Oct, 2023

大型语言模型的水印

本研究提出了一种基于水印技术的保护私有语言模型的框架，通过嵌入可被算法识别但人类无法察觉的信号保证模型输出的安全性，并利用解释性 p 值的统计学方法检测水印的敏感性。测试结果表明本方法对于 Open Pretrained Transformer 等大型语言模型的检测效果良好，能够提升模型的鲁棒性和安全性。

Jan, 2023

语言模型的不可检测水印

本文章研究如何对大型语言模型进行不可检测的数字水印嵌入，采用密码学中的单向函数进行构建，使得即使用户能够适应性查询，也难以区分带水印的输出和原始模型的输出，从而保证文本质量。

May, 2023

利用其优势攻击 LLM 水印

通过对现有 LLM 水印系统的攻击研究，提出了一套实用准则，用于生成和检测 LLM 水印，旨在解决水印系统在保留质量、鲁棒性和公共检测 API 等方面所面临的各种攻击问题。

Feb, 2024

巩固大型语言模型的三个水印砖块

该研究以三个理论和实证考虑为基础，为大型语言模型提出了水印的方法，其中包括新的统计测试、经典基准的效果比较以及高级侦测方案的开发。

Jul, 2023

语言模型水印的黑盒检测

水印技术被视为一种有效的方法来检测 LLM 生成的文本，此研究针对三种最流行的水印方案家族开发了严格的统计测试，使用有限数量的黑盒查询来检测它们的存在，并发现当前的水印方案比之前认为的更容易被检测到。

May, 2024

标记我的言辞：分析和评估语言模型水印

在大型语言模型的能力与对其滥用的担忧日益增长的背景下，对机器生成的文本与人类作者的内容进行区分的能力变得重要。本研究侧重于文本水印技术而非图像水印，并提出了一个全面的评估框架，包括不同任务及实际攻击的水印技术基准。我们关注三个主要指标：质量、大小（例如，检测水印所需的标记数）和防篡改性。目前的水印技术已足够用于部署，但我们认为水印的不可辨认性要求过高；略微修改逻辑分布的方案在生成质量上胜过不可辨认的对应方案且无明显质量损失。我们公开发布我们的基准测试。

Dec, 2023

图像处理网络的模型水印技术

基于空间隐形水印技术，提出了一种图像处理模型的水印框架，防止模型权益被侵犯。实验证明，该水印技术可抵抗不同网络结构和目标函数训练出的替代模型。

Feb, 2020

强大且无失真的语言模型水印

我们提出了一种在自回归语言模型中种植水印的方法，这些水印在不改变一定最大生成预算下的文本分布的情况下对扰动具有鲁棒性。我们通过使用随机水印密钥计算的随机数序列映射到语言模型的样本来生成带水印的文本。为了检测带水印的文本，任何知道密钥的一方可以将文本与随机数序列对齐。我们用两种采样方案来实例化我们的水印方法：逆变换采样和指数最小采样。我们将这些水印应用到三个语言模型（OPT-1.3B，LLaMA-7B 和 Alpaca-7B）上，以实验证明它们对各种释义攻击的统计功率和鲁棒性。值得注意的是，在 OPT-1.3B 和 LLaMA-7B 模型中，即使在通过随机编辑（即替换、插入或删除）破坏了 40-50% 的标记之后，我们仍然可以可靠地检测到带水印的文本（p≤0.01）35 个标记。对于 Alpaca-7B 模型，我们对典型用户指令的水印响应可行性进行了案例研究。由于响应的熵较低，检测更加困难：约 25% 的响应（中位长度约为 100 个标记）可以在 p≤0.01 的条件下检测到，而水印也对我们实施的某些自动释义攻击不太鲁棒。

Jul, 2023

语言模型的编辑距离稳健水印

使用具有可证明保证的水印技术对语言模型的输出进行保护，使其满足不可检测性和对修订的鲁棒性要求。

Jun, 2024