WaterBench：针对大型语言模型的水印综合评估

Nov, 2023

WaterBench：针对大型语言模型的水印综合评估

WaterBench: Towards Holistic Evaluation of Watermarks for Large Language Models

Shangqing Tu, Yuliang Sun, Yushi Bai, Jifan Yu, Lei Hou...

TL;DR为了解决大型语言模型的滥用问题，该研究开发了水印算法，通过限制生成过程以留下不可见痕迹进行水印检测。本文引入了 WaterBench，第一个针对大型语言模型水印的全面基准测试，通过设计三个关键要素进行了综合评估，包括基准测试过程、任务选择和评估指标，观察到当前方法在保持生成质量方面存在共同困难。

Abstract

To mitigate the potential misuse of large language models (LLMs), recent research has developed watermarking algorithms, which restrict the generation process to leave an invisible trace for watermark detection.

large language models watermarking algorithms benchmark generation and detection performance instruction-following abilities

发现论文，激发创造

标记我的言辞：分析和评估语言模型水印

在大型语言模型的能力与对其滥用的担忧日益增长的背景下，对机器生成的文本与人类作者的内容进行区分的能力变得重要。本研究侧重于文本水印技术而非图像水印，并提出了一个全面的评估框架，包括不同任务及实际攻击的水印技术基准。我们关注三个主要指标：质量、大小（例如，检测水印所需的标记数）和防篡改性。目前的水印技术已足够用于部署，但我们认为水印的不可辨认性要求过高；略微修改逻辑分布的方案在生成质量上胜过不可辨认的对应方案且无明显质量损失。我们公开发布我们的基准测试。

Dec, 2023

WaterJudge：在为大语言模型加水印时实现质量检测与权衡

通过比较评估的灵活自然语言生成评估框架，本研究提出了一个简单的分析框架，用于评估特定水印设置引起的生成文本质量降低，以找到平衡性能和易检测性的最佳水印操作点。该方法应用于两个不同的摘要系统和一个翻译系统，实现了任务内和跨任务的模型分析。

Mar, 2024

巩固大型语言模型的三个水印砖块

该研究以三个理论和实证考虑为基础，为大型语言模型提出了水印的方法，其中包括新的统计测试、经典基准的效果比较以及高级侦测方案的开发。

Jul, 2023

一种新的评估度量捕捉由 LLM 数字水印引起的质量降低

评估大语言模型水印技术的新方法，并揭示了当前水印方法的可检测性、对文本质量的影响以及评估水印质量的重要性。

Dec, 2023

大型语言模型的水印

本研究提出了一种基于水印技术的保护私有语言模型的框架，通过嵌入可被算法识别但人类无法察觉的信号保证模型输出的安全性，并利用解释性 p 值的统计学方法检测水印的敏感性。测试结果表明本方法对于 Open Pretrained Transformer 等大型语言模型的检测效果良好，能够提升模型的鲁棒性和安全性。

Jan, 2023

辨识带水印的大型语言模型的基准

通过分析输出 token 和 logit 的分布，提出了一套基线算法来识别广泛使用的水印方案在大型语言模型中的存在和使用，并考虑了各种情况下的鉴别度和识别机制的权衡。同时，正式阐明了在大型语言模型和水印检测方面的特定问题。

May, 2023

语言模型水印的黑盒检测

水印技术被视为一种有效的方法来检测 LLM 生成的文本，此研究针对三种最流行的水印方案家族开发了严格的统计测试，使用有限数量的黑盒查询来检测它们的存在，并发现当前的水印方案比之前认为的更容易被检测到。

May, 2024

大型语言模型的水印的统计框架：枢轴、检测效率和最优规则

自 2022 年 11 月引入 ChatGPT 以来，将几乎不可察觉的统计信号嵌入到大型语言模型生成的文本中（也称为水印），已被用作对比较于人类编写的文本的 LLM 生成文本的可证明检测的合理方法。本文提出了一种通用且灵活的框架，用于对水印的统计效率进行推理和设计强大的检测规则。通过受到水印检测的假设检验公式的启发，我们的框架首先选择文本的中心统计量和一个 LLM 提供给验证者的秘密密钥，以便控制误报率（错误地将人类编写的文本误判为 LLM 生成的文本）。接下来，该框架允许通过获得渐近虚检率（错误地将 LLM 生成的文本错误地分类为人类编写的文本）的闭式表达式来评估水印检测规则的效力。我们的框架进一步将确定最优检测规则的问题简化为解决最小极大化优化方案。我们将这一框架应用于两个代表性水印 —— 其中一个已在 OpenAI 内部实施 —— 并得出了一些可对实施水印标准起到指导作用的结果。特别地，在我们的框架下，我们推导出了这些水印的最优检测规则。通过数值实验，证明了这些理论推导出的检测规则在竞争中有时更有效且具有更高的功率。

Apr, 2024

关于大型语言模型中水印可靠性的研究

本文探讨使用不同的检测方法来对水印进行可靠的鉴别，并研究机器生成文本的大量观察对于水印的鉴别是否可靠，最终表明水印技术是一项可靠的解决方案，尤其是在样本复杂度越高时，水印证据会逐渐累积，并最终被检测出来。

Jun, 2023

WaterPool：在隐形、效能和稳健性之间进行减少水印的权衡

利用关键模块和标记模块的分解，本文介绍了 WaterPool，一个简单但有效的关键模块，提高了水印技术的性能，达到接近最佳的不可察觉性，并显著提高了功效和鲁棒性。

May, 2024