大型语言模型中用于低熵和无偏生成的水印

May, 2024

大型语言模型中用于低熵和无偏生成的水印

A Watermark for Low-entropy and Unbiased Generation in Large Language Models

Minjia Mao, Dongjun Wei, Zeyu Chen, Xiao Fang, Michael Chau

TL;DR近期大型语言模型的发展突显了滥用的风险，并引发了对于精确检测大型语言模型生成内容的担忧。本研究提出了一种名为 STA-1 的无偏水印方法，该方法在检测过程中不需要获取大型语言模型，也不需要提示信息，并且对于水印检测的第二类错误提供了统计保证，实验结果表明这种方法在低熵和高熵数据集上实现了与现有无偏水印相当的文本质量和水印强度，并具有低风险的不令人满意的输出。

Abstract

Recent advancements in large language models (LLMs) have highlighted the risk of misuse, raising concerns about accurately detecting LLM-generated content. A viable solution for the detection problem is to inject

large language models watermarks detection unbiased text quality

发现论文，激发创造

强大且无失真的语言模型水印

我们提出了一种在自回归语言模型中种植水印的方法，这些水印在不改变一定最大生成预算下的文本分布的情况下对扰动具有鲁棒性。我们通过使用随机水印密钥计算的随机数序列映射到语言模型的样本来生成带水印的文本。为了检测带水印的文本，任何知道密钥的一方可以将文本与随机数序列对齐。我们用两种采样方案来实例化我们的水印方法：逆变换采样和指数最小采样。我们将这些水印应用到三个语言模型（OPT-1.3B，LLaMA-7B 和 Alpaca-7B）上，以实验证明它们对各种释义攻击的统计功率和鲁棒性。值得注意的是，在 OPT-1.3B 和 LLaMA-7B 模型中，即使在通过随机编辑（即替换、插入或删除）破坏了 40-50% 的标记之后，我们仍然可以可靠地检测到带水印的文本（p≤0.01）35 个标记。对于 Alpaca-7B 模型，我们对典型用户指令的水印响应可行性进行了案例研究。由于响应的熵较低，检测更加困难：约 25% 的响应（中位长度约为 100 个标记）可以在 p≤0.01 的条件下检测到，而水印也对我们实施的某些自动释义攻击不太鲁棒。

Jul, 2023

大型语言模型的自适应文本水印

该论文提出了一种自适应水印策略来解决大语言模型生成高质量水印文本并保持强大安全性、稳健性以及在没有先验知识的情况下检测水印的能力的问题。

Jan, 2024

大型语言模型的水印的统计框架：枢轴、检测效率和最优规则

自 2022 年 11 月引入 ChatGPT 以来，将几乎不可察觉的统计信号嵌入到大型语言模型生成的文本中（也称为水印），已被用作对比较于人类编写的文本的 LLM 生成文本的可证明检测的合理方法。本文提出了一种通用且灵活的框架，用于对水印的统计效率进行推理和设计强大的检测规则。通过受到水印检测的假设检验公式的启发，我们的框架首先选择文本的中心统计量和一个 LLM 提供给验证者的秘密密钥，以便控制误报率（错误地将人类编写的文本误判为 LLM 生成的文本）。接下来，该框架允许通过获得渐近虚检率（错误地将 LLM 生成的文本错误地分类为人类编写的文本）的闭式表达式来评估水印检测规则的效力。我们的框架进一步将确定最优检测规则的问题简化为解决最小极大化优化方案。我们将这一框架应用于两个代表性水印 —— 其中一个已在 OpenAI 内部实施 —— 并得出了一些可对实施水印标准起到指导作用的结果。特别地，在我们的框架下，我们推导出了这些水印的最优检测规则。通过数值实验，证明了这些理论推导出的检测规则在竞争中有时更有效且具有更高的功率。

Apr, 2024

巩固大型语言模型的三个水印砖块

该研究以三个理论和实证考虑为基础，为大型语言模型提出了水印的方法，其中包括新的统计测试、经典基准的效果比较以及高级侦测方案的开发。

Jul, 2023

黑盒语言模型生成文本的水印技术

防止语言模型误用的关键在于检测其生成的文本，此文介绍了一种基于水印的白盒 LLMs 方法，以及为黑盒 LLMs 开发的水印框架，实现了自主注入水印以避免在 API 下载应用时因选择黑盒 LLMs 而导致不能使用水印的问题。

May, 2023

大型语言模型的水印

本研究提出了一种基于水印技术的保护私有语言模型的框架，通过嵌入可被算法识别但人类无法察觉的信号保证模型输出的安全性，并利用解释性 p 值的统计学方法检测水印的敏感性。测试结果表明本方法对于 Open Pretrained Transformer 等大型语言模型的检测效果良好，能够提升模型的鲁棒性和安全性。

Jan, 2023

可学习的语言水印：对大型语言模型的模型提取攻击进行追踪

在快速发展的人工智能领域中，保护大型语言模型（LLMs）的知识产权变得越来越关键。我们提出了一种新颖的方法，在 LLMs 中嵌入可学习的语言水印，以追踪和防止模型提取攻击。我们的方法通过向令牌频率分布中引入可控噪声来微妙地修改 LLM 的输出分布，嵌入可统计辨识的可控水印。我们利用统计假设检验和信息理论，特别关注库尔巴克 - 莱布勒散度，有效区分原始分布和修改分布。我们的水印方法在鲁棒性和输出质量之间达到了微妙的平衡，保持了较低的误报率和漏报率，并且保留了 LLM 的原始性能。

Apr, 2024

大型语言模型水印的性能权衡

评估了在文本分类、摘要生成、翻译等任务中，嵌入水印对大语言模型的性能的影响，并发现水印对于多项选择题和短句生成基本没有影响，但对于摘要生成和翻译任务性能下降了 15-20%。这些发现凸显了用户在使用带有水印模型时应该意识到的权衡，并指出未来研究可能改善现有的权衡。

Nov, 2023

大规模语言模型的文体水印

提出了一种新的方法来生成文本水印，通过策略性地改变生成过程中的令牌概率，利用语言学特征（如风格学）对大型语言模型（LLMs）进行参数化，以提高鲁棒性和应对传统攻击。

May, 2024

大型语言模型的增强可检测性和语义一致性的特定记号水印

利用多目标优化方法实现识别性与语义完整性，我们提出了一种在大型语言模型生成的文本中嵌入水印的新方法。实验证明，我们的方法在提高大型语言模型生成文本的可识别性的同时保持其语义连贯性方面优于当前的水印技术。

Feb, 2024