水印式 LLM 的统计理解的改进

Mar, 2024

Towards Better Statistical Understanding of Watermarking LLMs

Zhongze Cai, Shang Liu, Hanzhao Wang, Huaiyang Zhong, Xiaocheng Li

TL;DR本文研究了大型语言模型（LLMs）的水印问题，并将其模型畸变和检测能力之间的权衡视为一个基于 Kirchenbauer 等人（2023a）的绿 - 红算法的约束优化问题。通过该优化问题的最优解，我们证明了其具有良好的解析特性，从而更好地理解并启发了水印过程的算法设计。在此优化公式的基础上，我们开发了一种在线对偶梯度上升水印算法，并证明了其在模型畸变和检测能力之间的渐近帕累托最优性。这样的结果保证了平均增加的绿色列表概率和因此明确的检测能力（与之前的结果相比）。此外，我们对水印问题中模型畸变度量的选择进行了系统讨论。我们证明了选择 KL 散度的合理性，并介绍了现有的 “无畸变” 和困惑度标准存在的问题。最后，我们通过对广泛数据集的对比算法进行了实证评估。

Abstract

In this paper, we study the problem of watermarking large language models (LLMs). We consider the trade-off between model distortion and detection ability and formulate it as a constrained →

watermarking large language models optimization problem detection ability model distortion metrics

发现论文，激发创造

利用混合整数规划进行大型语言模型水印窃取

大型语言模型水印方案及其鲁棒性研究

May, 2024

大型语言模型的水印优化

使用多目标优化问题的系统方法介绍了大规模语言模型、水印、生成型语言模型、可识别性和多目标优化问题相关的本研究领域。

Dec, 2023

辨识带水印的大型语言模型的基准

通过分析输出 token 和 logit 的分布，提出了一套基线算法来识别广泛使用的水印方案在大型语言模型中的存在和使用，并考虑了各种情况下的鉴别度和识别机制的权衡。同时，正式阐明了在大型语言模型和水印检测方面的特定问题。

May, 2023

WaterJudge：在为大语言模型加水印时实现质量检测与权衡

通过比较评估的灵活自然语言生成评估框架，本研究提出了一个简单的分析框架，用于评估特定水印设置引起的生成文本质量降低，以找到平衡性能和易检测性的最佳水印操作点。该方法应用于两个不同的摘要系统和一个翻译系统，实现了任务内和跨任务的模型分析。

Mar, 2024

可学习的语言水印：对大型语言模型的模型提取攻击进行追踪

在快速发展的人工智能领域中，保护大型语言模型（LLMs）的知识产权变得越来越关键。我们提出了一种新颖的方法，在 LLMs 中嵌入可学习的语言水印，以追踪和防止模型提取攻击。我们的方法通过向令牌频率分布中引入可控噪声来微妙地修改 LLM 的输出分布，嵌入可统计辨识的可控水印。我们利用统计假设检验和信息理论，特别关注库尔巴克 - 莱布勒散度，有效区分原始分布和修改分布。我们的水印方法在鲁棒性和输出质量之间达到了微妙的平衡，保持了较低的误报率和漏报率，并且保留了 LLM 的原始性能。

Apr, 2024

大型语言模型的自适应文本水印

该论文提出了一种自适应水印策略来解决大语言模型生成高质量水印文本并保持强大安全性、稳健性以及在没有先验知识的情况下检测水印的能力的问题。

Jan, 2024

大型语言模型的水印

本研究提出了一种基于水印技术的保护私有语言模型的框架，通过嵌入可被算法识别但人类无法察觉的信号保证模型输出的安全性，并利用解释性 p 值的统计学方法检测水印的敏感性。测试结果表明本方法对于 Open Pretrained Transformer 等大型语言模型的检测效果良好，能够提升模型的鲁棒性和安全性。

Jan, 2023

一种新的评估度量捕捉由 LLM 数字水印引起的质量降低

评估大语言模型水印技术的新方法，并揭示了当前水印方法的可检测性、对文本质量的影响以及评估水印质量的重要性。

Dec, 2023

大型语言模型的水印的统计框架：枢轴、检测效率和最优规则

自 2022 年 11 月引入 ChatGPT 以来，将几乎不可察觉的统计信号嵌入到大型语言模型生成的文本中（也称为水印），已被用作对比较于人类编写的文本的 LLM 生成文本的可证明检测的合理方法。本文提出了一种通用且灵活的框架，用于对水印的统计效率进行推理和设计强大的检测规则。通过受到水印检测的假设检验公式的启发，我们的框架首先选择文本的中心统计量和一个 LLM 提供给验证者的秘密密钥，以便控制误报率（错误地将人类编写的文本误判为 LLM 生成的文本）。接下来，该框架允许通过获得渐近虚检率（错误地将 LLM 生成的文本错误地分类为人类编写的文本）的闭式表达式来评估水印检测规则的效力。我们的框架进一步将确定最优检测规则的问题简化为解决最小极大化优化方案。我们将这一框架应用于两个代表性水印 —— 其中一个已在 OpenAI 内部实施 —— 并得出了一些可对实施水印标准起到指导作用的结果。特别地，在我们的框架下，我们推导出了这些水印的最优检测规则。通过数值实验，证明了这些理论推导出的检测规则在竞争中有时更有效且具有更高的功率。

Apr, 2024

强大且无失真的语言模型水印

我们提出了一种在自回归语言模型中种植水印的方法，这些水印在不改变一定最大生成预算下的文本分布的情况下对扰动具有鲁棒性。我们通过使用随机水印密钥计算的随机数序列映射到语言模型的样本来生成带水印的文本。为了检测带水印的文本，任何知道密钥的一方可以将文本与随机数序列对齐。我们用两种采样方案来实例化我们的水印方法：逆变换采样和指数最小采样。我们将这些水印应用到三个语言模型（OPT-1.3B，LLaMA-7B 和 Alpaca-7B）上，以实验证明它们对各种释义攻击的统计功率和鲁棒性。值得注意的是，在 OPT-1.3B 和 LLaMA-7B 模型中，即使在通过随机编辑（即替换、插入或删除）破坏了 40-50% 的标记之后，我们仍然可以可靠地检测到带水印的文本（p≤0.01）35 个标记。对于 Alpaca-7B 模型，我们对典型用户指令的水印响应可行性进行了案例研究。由于响应的熵较低，检测更加困难：约 25% 的响应（中位长度约为 100 个标记）可以在 p≤0.01 的条件下检测到，而水印也对我们实施的某些自动释义攻击不太鲁棒。

Jul, 2023