标记我的言辞：分析和评估语言模型水印

Dec, 2023

标记我的言辞：分析和评估语言模型水印

Mark My Words: Analyzing and Evaluating Language Model Watermarks

Julien Piet, Chawin Sitawarin, Vivian Fang, Norman Mu, David Wagner

TL;DR在大型语言模型的能力与对其滥用的担忧日益增长的背景下，对机器生成的文本与人类作者的内容进行区分的能力变得重要。本研究侧重于文本水印技术而非图像水印，并提出了一个全面的评估框架，包括不同任务及实际攻击的水印技术基准。我们关注三个主要指标：质量、大小（例如，检测水印所需的标记数）和防篡改性。目前的水印技术已足够用于部署，但我们认为水印的不可辨认性要求过高；略微修改逻辑分布的方案在生成质量上胜过不可辨认的对应方案且无明显质量损失。我们公开发布我们的基准测试。

Abstract

The capabilities of large language models have grown significantly in recent years and so too have concerns about their misuse. In this context, the ability to distinguish machine-generated text from human-authored content becomes important. Prior works have proposed numerous schemes t

large language models text watermarking techniques evaluation framework quality tamper-resistance

发现论文，激发创造

关于大型语言模型中水印可靠性的研究

本文探讨使用不同的检测方法来对水印进行可靠的鉴别，并研究机器生成文本的大量观察对于水印的鉴别是否可靠，最终表明水印技术是一项可靠的解决方案，尤其是在样本复杂度越高时，水印证据会逐渐累积，并最终被检测出来。

Jun, 2023

大型语言模型的水印

本研究提出了一种基于水印技术的保护私有语言模型的框架，通过嵌入可被算法识别但人类无法察觉的信号保证模型输出的安全性，并利用解释性 p 值的统计学方法检测水印的敏感性。测试结果表明本方法对于 Open Pretrained Transformer 等大型语言模型的检测效果良好，能够提升模型的鲁棒性和安全性。

Jan, 2023

大语言模型时代的文本水印调查

通过文本水印技术，在生成的文本中嵌入不可见但可检测的模式，有助于追踪和验证文本来源，从而防止滥用和盗版。该综述对当前的文本水印技术进行了全面总结，包括不同技术的概述和比较、算法的评估方法以及可能的应用领域，以帮助研究人员全面了解文本水印技术、促进进一步的发展。

Dec, 2023

WaterBench：针对大型语言模型的水印综合评估

为了解决大型语言模型的滥用问题，该研究开发了水印算法，通过限制生成过程以留下不可见痕迹进行水印检测。本文引入了 WaterBench，第一个针对大型语言模型水印的全面基准测试，通过设计三个关键要素进行了综合评估，包括基准测试过程、任务选择和评估指标，观察到当前方法在保持生成质量方面存在共同困难。

Nov, 2023

一种新的评估度量捕捉由 LLM 数字水印引起的质量降低

评估大语言模型水印技术的新方法，并揭示了当前水印方法的可检测性、对文本质量的影响以及评估水印质量的重要性。

Dec, 2023

巩固大型语言模型的三个水印砖块

该研究以三个理论和实证考虑为基础，为大型语言模型提出了水印的方法，其中包括新的统计测试、经典基准的效果比较以及高级侦测方案的开发。

Jul, 2023

WaterJudge：在为大语言模型加水印时实现质量检测与权衡

通过比较评估的灵活自然语言生成评估框架，本研究提出了一个简单的分析框架，用于评估特定水印设置引起的生成文本质量降低，以找到平衡性能和易检测性的最佳水印操作点。该方法应用于两个不同的摘要系统和一个翻译系统，实现了任务内和跨任务的模型分析。

Mar, 2024

大型语言模型水印的性能权衡

评估了在文本分类、摘要生成、翻译等任务中，嵌入水印对大语言模型的性能的影响，并发现水印对于多项选择题和短句生成基本没有影响，但对于摘要生成和翻译任务性能下降了 15-20%。这些发现凸显了用户在使用带有水印模型时应该意识到的权衡，并指出未来研究可能改善现有的权衡。

Nov, 2023

可学习的语言水印：对大型语言模型的模型提取攻击进行追踪

在快速发展的人工智能领域中，保护大型语言模型（LLMs）的知识产权变得越来越关键。我们提出了一种新颖的方法，在 LLMs 中嵌入可学习的语言水印，以追踪和防止模型提取攻击。我们的方法通过向令牌频率分布中引入可控噪声来微妙地修改 LLM 的输出分布，嵌入可统计辨识的可控水印。我们利用统计假设检验和信息理论，特别关注库尔巴克 - 莱布勒散度，有效区分原始分布和修改分布。我们的水印方法在鲁棒性和输出质量之间达到了微妙的平衡，保持了较低的误报率和漏报率，并且保留了 LLM 的原始性能。

Apr, 2024

大型语言模型的增强可检测性和语义一致性的特定记号水印

利用多目标优化方法实现识别性与语义完整性，我们提出了一种在大型语言模型生成的文本中嵌入水印的新方法。实验证明，我们的方法在提高大型语言模型生成文本的可识别性的同时保持其语义连贯性方面优于当前的水印技术。

Feb, 2024