机器生成语言中水印的伦理需求

Sep, 2022

The Ethical Need for Watermarks in Machine-Generated Language

Alexei Grinbaum, Laurynas Adomaitis

TL;DR为了保持人类和机器生成文本之间的区别，应在 AI 系统的自然语言输出中引入水印。我们建议实施基于等距字母序列的代码来强制实施该区别，这在伦理上将有帮助。

Abstract

watermarks should be introduced in the natural language outputs of ai systems in order to maintain the distinction between human and machine-generated text. The →

watermarks ai systems human-machine distinction ethical imperative equidistant letter sequences

发现论文，激发创造

大型语言模型的必要且充分水印

提出了 NS-Watermark 方法用于在生成的文本中插入水印，以区分由大型语言模型还是人类编写的文本。该方法通过约束优化问题来生成更自然的文本，并在机器翻译任务中相较于现有的水印方法取得高达 30 BLEU 分数的性能优势。

Oct, 2023

关于大型语言模型中水印可靠性的研究

本文探讨使用不同的检测方法来对水印进行可靠的鉴别，并研究机器生成文本的大量观察对于水印的鉴别是否可靠，最终表明水印技术是一项可靠的解决方案，尤其是在样本复杂度越高时，水印证据会逐渐累积，并最终被检测出来。

Jun, 2023

标记我的言辞：分析和评估语言模型水印

在大型语言模型的能力与对其滥用的担忧日益增长的背景下，对机器生成的文本与人类作者的内容进行区分的能力变得重要。本研究侧重于文本水印技术而非图像水印，并提出了一个全面的评估框架，包括不同任务及实际攻击的水印技术基准。我们关注三个主要指标：质量、大小（例如，检测水印所需的标记数）和防篡改性。目前的水印技术已足够用于部署，但我们认为水印的不可辨认性要求过高；略微修改逻辑分布的方案在生成质量上胜过不可辨认的对应方案且无明显质量损失。我们公开发布我们的基准测试。

Dec, 2023

大型语言模型的水印

本研究提出了一种基于水印技术的保护私有语言模型的框架，通过嵌入可被算法识别但人类无法察觉的信号保证模型输出的安全性，并利用解释性 p 值的统计学方法检测水印的敏感性。测试结果表明本方法对于 Open Pretrained Transformer 等大型语言模型的检测效果良好，能够提升模型的鲁棒性和安全性。

Jan, 2023

语言模型的不可检测水印

本文章研究如何对大型语言模型进行不可检测的数字水印嵌入，采用密码学中的单向函数进行构建，使得即使用户能够适应性查询，也难以区分带水印的输出和原始模型的输出，从而保证文本质量。

May, 2023

基于采样的水印方法用于识别机器生成的文本

提出了一种新的水印方法来检测机器生成的文本，并通过与一种先进的水印方法进行了比较，证明了该方法在在保持文本质量的同时，能够有效地区分带水印和不带水印的文本，并取得了较高的检测率。

Nov, 2023

大型语言模型的增强可检测性和语义一致性的特定记号水印

利用多目标优化方法实现识别性与语义完整性，我们提出了一种在大型语言模型生成的文本中嵌入水印的新方法。实验证明，我们的方法在提高大型语言模型生成文本的可识别性的同时保持其语义连贯性方面优于当前的水印技术。

Feb, 2024

代码生成的水印：谁编写了这个代码？

本文发现现有的基于大型语言模型的文字水印和机器生成文字检测方法不能很好地应用于代码生成任务，因此提出了 SWEET 的新水印方法，其在标记的选择方面较先前方法具有更高的熵门限，实验表明我们的水印代码比先前状态下的大型语言模型水印方法生成的代码具有更好的质量，并凭借该方法在机器生成代码检测任务中表现优异。

May, 2023

水印条件文本生成的人工智能检测：揭示挑战和语义感知水印解决方案

通过在机器生成的文本中引入水印并利用此信息进行检测，以缓解语言模型潜在风险的方法，以及提出的基于语义感知的水印算法，在保持检测能力的同时，在各种文本生成模型中取得了显著的改进，包括 BART 和 Flan-T5，在摘要生成和数据到文本生成等任务中。

Jul, 2023

AI 自动生成文本的可证明鲁棒水印

为了解决检测人工智能生成文本的问题，本研究提出了一种鲁棒且高质量的方案，名为 GPTWatermark，通过水印的方式确定文本的来源，并在大规模语言模型中展示了其稳定性和高检测准确性。

Jun, 2023