通过强化学习学习为 LLM 生成的文本添加水印

Mar, 2024

通过强化学习学习为 LLM 生成的文本添加水印

Learning to Watermark LLM-generated Text via Reinforcement Learning

Xiaojun Xu, Yuanshun Yao, Yang Liu

TL;DR我们研究了如何给 LLM 输出添加水印，即将可算法检测到的信号嵌入 LLM 生成的文本以跟踪滥用。与目前主流方法不同，我们扩大了水印设计空间，将 LLM 调整阶段包括在水印流程中。通过强化学习提出了一种共同训练框架，迭代地 (1) 训练一个检测器来检测生成的带水印文本，(2) 调整 LLM 以生成容易被检测器检测到的文本，同时保持其正常效用。我们实证表明我们的水印更准确、更稳健、更适应新的攻击。此外，如果与对齐一起使用，额外引入的开销很低，只需要训练一个额外的奖励模型 (即我们的检测器)。我们希望我们的工作能够引起更多关于更广泛的水印设计的研究努力，不局限于与固定 LLM 一起工作。我们开源了代码：this https URL。

Abstract

We study how to watermark llm outputs, i.e. embedding algorithmically d

watermark llm embedding co-training detectable signals

发现论文，激发创造

大型语言模型的自适应文本水印

该论文提出了一种自适应水印策略来解决大语言模型生成高质量水印文本并保持强大安全性、稳健性以及在没有先验知识的情况下检测水印的能力的问题。

Jan, 2024

大型语言模型的增强可检测性和语义一致性的特定记号水印

利用多目标优化方法实现识别性与语义完整性，我们提出了一种在大型语言模型生成的文本中嵌入水印的新方法。实验证明，我们的方法在提高大型语言模型生成文本的可识别性的同时保持其语义连贯性方面优于当前的水印技术。

Feb, 2024

水印技术使语言模型放射性增强

调查了 LLM 生成的文本的辐射性，即是否可能检测到这种输入被用作训练数据；与成员推断等传统方法相比，我们发现水印训练数据留下的痕迹更容易检测且更可靠；我们将污染程度与水印的鲁棒性、在训练集中所占比例和微调过程联系起来；我们特别证明，即使仅有 5％的训练文本带有水印，也能以高置信度（p 值 < 1e-5）检测到在带有水印的合成指令上进行训练；因此，最初设计用于检测机器生成文本的 LLM 水印技术可以轻松识别是否使用带有水印的 LLM 的输出来进行微调。

Feb, 2024

可学习的语言水印：对大型语言模型的模型提取攻击进行追踪

在快速发展的人工智能领域中，保护大型语言模型（LLMs）的知识产权变得越来越关键。我们提出了一种新颖的方法，在 LLMs 中嵌入可学习的语言水印，以追踪和防止模型提取攻击。我们的方法通过向令牌频率分布中引入可控噪声来微妙地修改 LLM 的输出分布，嵌入可统计辨识的可控水印。我们利用统计假设检验和信息理论，特别关注库尔巴克 - 莱布勒散度，有效区分原始分布和修改分布。我们的水印方法在鲁棒性和输出质量之间达到了微妙的平衡，保持了较低的误报率和漏报率，并且保留了 LLM 的原始性能。

Apr, 2024

大型语言模型水印的性能权衡

评估了在文本分类、摘要生成、翻译等任务中，嵌入水印对大语言模型的性能的影响，并发现水印对于多项选择题和短句生成基本没有影响，但对于摘要生成和翻译任务性能下降了 15-20%。这些发现凸显了用户在使用带有水印模型时应该意识到的权衡，并指出未来研究可能改善现有的权衡。

Nov, 2023

黑盒语言模型生成文本的水印技术

防止语言模型误用的关键在于检测其生成的文本，此文介绍了一种基于水印的白盒 LLMs 方法，以及为黑盒 LLMs 开发的水印框架，实现了自主注入水印以避免在 API 下载应用时因选择黑盒 LLMs 而导致不能使用水印的问题。

May, 2023

MarkLLM：一个用于 LLM 数字水印的开源工具包

LLM 水印技术已成为减轻大型语言模型潜在滥用的关键之一，而 MarkLLM 作为一个开源工具包，提供了统一而可扩展的框架来实现 LLM 水印算法，并通过用户友好的界面确保易于使用，同时支持自动可视化算法机制，以及 12 个工具和两种类型的自动化评估流程，旨在支持研究人员并促进公众对 LLM 水印技术的理解和参与，推动研究和应用的进一步发展。

May, 2024

利用其优势攻击 LLM 水印

通过对现有 LLM 水印系统的攻击研究，提出了一套实用准则，用于生成和检测 LLM 水印，旨在解决水印系统在保留质量、鲁棒性和公共检测 API 等方面所面临的各种攻击问题。

Feb, 2024

基于主题的 LLM 生成文本水印

提出了一种基于主题的水印算法用于大语言模型，该算法能够根据输入提示或非水印语言模型的输出提取主题，并生成带有水印的模型输出，进一步展示了水印检测算法的实用性，并讨论了可能出现的各种针对大语言模型水印算法的攻击以及提出的水印算法的优势。

Apr, 2024

一种新的评估度量捕捉由 LLM 数字水印引起的质量降低

评估大语言模型水印技术的新方法，并揭示了当前水印方法的可检测性、对文本质量的影响以及评估水印质量的重要性。

Dec, 2023