超越识别：多位比特语言模型水印技术

Aug, 2023

超越识别：多位比特语言模型水印技术

Advancing Beyond Identification: Multi-bit Watermark for Language Models

KiYoon Yoo, Wonhyuk Ahn, Nojun Kwak

TL;DR本研究以主动应对大型语言模型的滥用问题为目标，针对一些恶意滥用需要追踪对手用户的情况，提出了 “多位比特水印技术基于颜色排序”（COLOR）方法，在语言模型生成过程中嵌入可追踪的多位比特信息。COLOR 利用了零位水印技术的优势，实现了无需模型访问的提取，即时嵌入，并保持了文本质量，同时还可以进行零位检测。初步实验展示了在中等长度（约 500 个标记）的文本中成功嵌入 32 位信息，准确率为 91.9%。本研究推进了对抗语言模型滥用的有效策略。

Abstract

This study aims to proactively tackle misuse of large language models beyond identification of machine-generated text. While existing methods focus on detection, some malicious misuses demand tracing the adversar

misuse of large language models multi-bit watermark traceable information detection counter language model misuse

发现论文，激发创造

大型语言模型的多比特无失真水印技术

扩展了一种零比特的无失真水印方法，将多位元的元信息作为水印的一部分嵌入，并开发了一个计算效率高且具有低比特误码率的解码器来提取水印中的嵌入信息。

Feb, 2024

大型语言模型的水印

本研究提出了一种基于水印技术的保护私有语言模型的框架，通过嵌入可被算法识别但人类无法察觉的信号保证模型输出的安全性，并利用解释性 p 值的统计学方法检测水印的敏感性。测试结果表明本方法对于 Open Pretrained Transformer 等大型语言模型的检测效果良好，能够提升模型的鲁棒性和安全性。

Jan, 2023

增强水印语言模型以识别用户

零比特的水印语言模型能产生与底层模型无法区分的文本，但可以通过密钥检测为机器生成，我们通过多用户水印技术实现追踪模型生成文本的个人或合谋用户，同时提供零比特和多用户保证，以及构建了将长信息嵌入生成文本的水印技术。同时，通过引入 AEB 鲁棒性，解决了黑盒降维中对鲁棒性缺乏统一抽象的挑战，使我们的构建方案与底层零比特方案的鲁棒性属性关联，并且我们的方案对自适应提示是强鲁棒的。

May, 2024

大型语言模型的增强可检测性和语义一致性的特定记号水印

利用多目标优化方法实现识别性与语义完整性，我们提出了一种在大型语言模型生成的文本中嵌入水印的新方法。实验证明，我们的方法在提高大型语言模型生成文本的可识别性的同时保持其语义连贯性方面优于当前的水印技术。

Feb, 2024

可学习的语言水印：对大型语言模型的模型提取攻击进行追踪

在快速发展的人工智能领域中，保护大型语言模型（LLMs）的知识产权变得越来越关键。我们提出了一种新颖的方法，在 LLMs 中嵌入可学习的语言水印，以追踪和防止模型提取攻击。我们的方法通过向令牌频率分布中引入可控噪声来微妙地修改 LLM 的输出分布，嵌入可统计辨识的可控水印。我们利用统计假设检验和信息理论，特别关注库尔巴克 - 莱布勒散度，有效区分原始分布和修改分布。我们的水印方法在鲁棒性和输出质量之间达到了微妙的平衡，保持了较低的误报率和漏报率，并且保留了 LLM 的原始性能。

Apr, 2024

标记我的言辞：分析和评估语言模型水印

在大型语言模型的能力与对其滥用的担忧日益增长的背景下，对机器生成的文本与人类作者的内容进行区分的能力变得重要。本研究侧重于文本水印技术而非图像水印，并提出了一个全面的评估框架，包括不同任务及实际攻击的水印技术基准。我们关注三个主要指标：质量、大小（例如，检测水印所需的标记数）和防篡改性。目前的水印技术已足够用于部署，但我们认为水印的不可辨认性要求过高；略微修改逻辑分布的方案在生成质量上胜过不可辨认的对应方案且无明显质量损失。我们公开发布我们的基准测试。

Dec, 2023

黑盒语言模型生成文本的水印技术

防止语言模型误用的关键在于检测其生成的文本，此文介绍了一种基于水印的白盒 LLMs 方法，以及为黑盒 LLMs 开发的水印框架，实现了自主注入水印以避免在 API 下载应用时因选择黑盒 LLMs 而导致不能使用水印的问题。

May, 2023

巩固大型语言模型的三个水印砖块

该研究以三个理论和实证考虑为基础，为大型语言模型提出了水印的方法，其中包括新的统计测试、经典基准的效果比较以及高级侦测方案的开发。

Jul, 2023

大型语言模型水印的性能权衡

评估了在文本分类、摘要生成、翻译等任务中，嵌入水印对大语言模型的性能的影响，并发现水印对于多项选择题和短句生成基本没有影响，但对于摘要生成和翻译任务性能下降了 15-20%。这些发现凸显了用户在使用带有水印模型时应该意识到的权衡，并指出未来研究可能改善现有的权衡。

Nov, 2023

大型语言模型的自适应文本水印

该论文提出了一种自适应水印策略来解决大语言模型生成高质量水印文本并保持强大安全性、稳健性以及在没有先验知识的情况下检测水印的能力的问题。

Jan, 2024