走向最佳的统计水印技术

Dec, 2023

Towards Optimal Statistical Watermarking

Baihe Huang, Banghua Zhu, Hanlin Zhu, Jason D. Lee, Jiantao Jiao...

TL;DR通过将统计水印技术作为一种假设检验问题进行研究，我们建立了一个通用框架，涵盖了所有以前的统计水印方法，并通过在实际中使用伪随机生成器将输出符号和拒绝域进行耦合，实现了类型 I 错误和类型 II 错误之间的非平凡权衡。我们描述了在这种情境中的均匀最有力（UMP）水印。对于输出为 $n$ 个符号序列的最常见情况，我们对所需的 i.i.d. 符号数量的上下界进行了匹配，以保证较小的类型 I 错误和类型 II 错误。我们的比率与每个符号的平均熵 $h$ 相关，因此大幅改进了先前作品中的 $O (h^{-2})$ 比率。对于检测器缺乏模型分布知识的情况，我们引入了模型无关水印技术，并为类型 II 错误增加的最小值界限建立了最小化界限。此外，我们还制定了鲁棒水印问题，允许用户对生成的文本进行一类扰动，并通过线性规划问题表征了鲁棒 UMP 检验的最佳类型 II 错误。据我们所知，这是第一个在 i.i.d. 设置中具有近乎最优速率的水印问题的系统统计处理，对于未来的研究可能具有兴趣。

Abstract

We study statistical watermarking by formulating it as a hypothesis testing problem, a general framework which subsumes all previous statistical watermarking methods. Key to our formulation is a coupling of the o

statistical watermarking hypothesis testing type i error type ii error model-agnostic watermarking

发现论文，激发创造

大型语言模型中用于低熵和无偏生成的水印

近期大型语言模型的发展突显了滥用的风险，并引发了对于精确检测大型语言模型生成内容的担忧。本研究提出了一种名为 STA-1 的无偏水印方法，该方法在检测过程中不需要获取大型语言模型，也不需要提示信息，并且对于水印检测的第二类错误提供了统计保证，实验结果表明这种方法在低熵和高熵数据集上实现了与现有无偏水印相当的文本质量和水印强度，并具有低风险的不令人满意的输出。

May, 2024

强大且无失真的语言模型水印

我们提出了一种在自回归语言模型中种植水印的方法，这些水印在不改变一定最大生成预算下的文本分布的情况下对扰动具有鲁棒性。我们通过使用随机水印密钥计算的随机数序列映射到语言模型的样本来生成带水印的文本。为了检测带水印的文本，任何知道密钥的一方可以将文本与随机数序列对齐。我们用两种采样方案来实例化我们的水印方法：逆变换采样和指数最小采样。我们将这些水印应用到三个语言模型（OPT-1.3B，LLaMA-7B 和 Alpaca-7B）上，以实验证明它们对各种释义攻击的统计功率和鲁棒性。值得注意的是，在 OPT-1.3B 和 LLaMA-7B 模型中，即使在通过随机编辑（即替换、插入或删除）破坏了 40-50% 的标记之后，我们仍然可以可靠地检测到带水印的文本（p≤0.01）35 个标记。对于 Alpaca-7B 模型，我们对典型用户指令的水印响应可行性进行了案例研究。由于响应的熵较低，检测更加困难：约 25% 的响应（中位长度约为 100 个标记）可以在 p≤0.01 的条件下检测到，而水印也对我们实施的某些自动释义攻击不太鲁棒。

Jul, 2023

大型语言模型的水印的统计框架：枢轴、检测效率和最优规则

自 2022 年 11 月引入 ChatGPT 以来，将几乎不可察觉的统计信号嵌入到大型语言模型生成的文本中（也称为水印），已被用作对比较于人类编写的文本的 LLM 生成文本的可证明检测的合理方法。本文提出了一种通用且灵活的框架，用于对水印的统计效率进行推理和设计强大的检测规则。通过受到水印检测的假设检验公式的启发，我们的框架首先选择文本的中心统计量和一个 LLM 提供给验证者的秘密密钥，以便控制误报率（错误地将人类编写的文本误判为 LLM 生成的文本）。接下来，该框架允许通过获得渐近虚检率（错误地将 LLM 生成的文本错误地分类为人类编写的文本）的闭式表达式来评估水印检测规则的效力。我们的框架进一步将确定最优检测规则的问题简化为解决最小极大化优化方案。我们将这一框架应用于两个代表性水印 —— 其中一个已在 OpenAI 内部实施 —— 并得出了一些可对实施水印标准起到指导作用的结果。特别地，在我们的框架下，我们推导出了这些水印的最优检测规则。通过数值实验，证明了这些理论推导出的检测规则在竞争中有时更有效且具有更高的功率。

Apr, 2024

语言模型的编辑距离稳健水印

使用具有可证明保证的水印技术对语言模型的输出进行保护，使其满足不可检测性和对修订的鲁棒性要求。

Jun, 2024

水印式 LLM 的统计理解的改进

本文研究了大型语言模型（LLMs）的水印问题，并将其模型畸变和检测能力之间的权衡视为一个基于 Kirchenbauer 等人（2023a）的绿 - 红算法的约束优化问题。通过该优化问题的最优解，我们证明了其具有良好的解析特性，从而更好地理解并启发了水印过程的算法设计。在此优化公式的基础上，我们开发了一种在线对偶梯度上升水印算法，并证明了其在模型畸变和检测能力之间的渐近帕累托最优性。这样的结果保证了平均增加的绿色列表概率和因此明确的检测能力（与之前的结果相比）。此外，我们对水印问题中模型畸变度量的选择进行了系统讨论。我们证明了选择 KL 散度的合理性，并介绍了现有的 “无畸变” 和困惑度标准存在的问题。最后，我们通过对广泛数据集的对比算法进行了实证评估。

Mar, 2024

大型语言模型的水印优化

使用多目标优化问题的系统方法介绍了大规模语言模型、水印、生成型语言模型、可识别性和多目标优化问题相关的本研究领域。

Dec, 2023

大型语言模型的水印

本研究提出了一种基于水印技术的保护私有语言模型的框架，通过嵌入可被算法识别但人类无法察觉的信号保证模型输出的安全性，并利用解释性 p 值的统计学方法检测水印的敏感性。测试结果表明本方法对于 Open Pretrained Transformer 等大型语言模型的检测效果良好，能够提升模型的鲁棒性和安全性。

Jan, 2023

语言模型的公开可检测水印

我们构建了第一个能在语言模型中具备公开可检测性或验证性的可证明水印方案：我们使用私钥进行水印嵌入，使用公钥进行水印检测。我们的方案是第一个不在生成的文本中嵌入统计信号的水印方案。相反，我们直接使用一种拒绝采样的方式嵌入可公开验证的密码学签名。我们展示了我们的构建满足强形式的安全保证，并保留了在私钥水印设置方案中发现的许多可取性质。特别地，我们的水印方案保持了无失真性和模型不可知性。我们实现了我们的方案，并对在 7B 参数范围内的开放模型进行了实证测量。我们的实验表明，我们的水印方案在满足我们的形式性要求的同时保持了文本质量。

Oct, 2023

沙滩上的水印：生成模型的强水印化的不可能性

在本文中，我们研究了强水印方案的（不）可能性。我们证明了在给定合理和自然的假设下，无法实现强水印。即使在私有检测算法设置下，即水印插入和检测算法共享一个对攻击者不知情的秘钥，此结果仍然成立。为了证明这个结果，我们引入了一个通用的高效水印攻击方法；攻击者不需要知道方案的私钥，甚至不需要知道使用的是哪个方案。我们的攻击基于两个假设：（1）攻击者可以访问 “质量 Oracle”，评估候选输出是否对提示有高质量的响应；（2）攻击者可以访问 “扰动 Oracle”，它可以以较高的概率修改输出，同时保持质量，并在高质量输出上诱导有效混合的随机游走。我们认为，这两个假设在实践中可以由比水印模型自身计算能力更弱的攻击者满足，攻击者只能以黑盒方式访问。此外，随着模型的能力和形式多样性的增长，我们的假设很可能随着时间的推移变得更容易满足。我们通过实施攻击来展示我们攻击的可行性，用于攻击大型语言模型的三个现有水印方案：Kirchenbauer 等（2023），Kuditipudi 等（2023）和 Zhao 等（2023）方案。同样的攻击成功去除了所有三个方案植入的水印，仅有轻微的质量降低。

Nov, 2023

大型语言模型水印的性能权衡

评估了在文本分类、摘要生成、翻译等任务中，嵌入水印对大语言模型的性能的影响，并发现水印对于多项选择题和短句生成基本没有影响，但对于摘要生成和翻译任务性能下降了 15-20%。这些发现凸显了用户在使用带有水印模型时应该意识到的权衡，并指出未来研究可能改善现有的权衡。

Nov, 2023