WASA：大规模语言模型生成数据的基于水印的来源追溯

Oct, 2023

WASA：大规模语言模型生成数据的基于水印的来源追溯

WASA: WAtermark-based Source Attribution for Large Language Model-Generated Data

Jingtan Wang, Xinyang Lu, Zitong Zhao, Zhongxiang Dai, Chuan-Sheng Foo...

TL;DR本文提出了一种基于水印技术的框架，名为 WASA，该框架可以通过给合成文本嵌入包含信息的水印来解决大语言模型产生的合成文本可能侵犯训练数据知识产权的问题，并且可以实现准确的数据来源归属和数据溯源。经过大量的实证评估，WASA 框架显示其能够实现有效的数据来源归属和数据溯源。

Abstract

The impressive performances of large language models (LLMs) and their immense potential for commercialization have given rise to serious concerns over the intellectual property (IP) of their training data. In par

large language models intellectual property source attribution data provenance watermarking

发现论文，激发创造

大语言模型时代的文本水印调查

通过文本水印技术，在生成的文本中嵌入不可见但可检测的模式，有助于追踪和验证文本来源，从而防止滥用和盗版。该综述对当前的文本水印技术进行了全面总结，包括不同技术的概述和比较、算法的评估方法以及可能的应用领域，以帮助研究人员全面了解文本水印技术、促进进一步的发展。

Dec, 2023

巩固大型语言模型的三个水印砖块

该研究以三个理论和实证考虑为基础，为大型语言模型提出了水印的方法，其中包括新的统计测试、经典基准的效果比较以及高级侦测方案的开发。

Jul, 2023

可学习的语言水印：对大型语言模型的模型提取攻击进行追踪

在快速发展的人工智能领域中，保护大型语言模型（LLMs）的知识产权变得越来越关键。我们提出了一种新颖的方法，在 LLMs 中嵌入可学习的语言水印，以追踪和防止模型提取攻击。我们的方法通过向令牌频率分布中引入可控噪声来微妙地修改 LLM 的输出分布，嵌入可统计辨识的可控水印。我们利用统计假设检验和信息理论，特别关注库尔巴克 - 莱布勒散度，有效区分原始分布和修改分布。我们的水印方法在鲁棒性和输出质量之间达到了微妙的平衡，保持了较低的误报率和漏报率，并且保留了 LLM 的原始性能。

Apr, 2024

关于大型语言模型中水印可靠性的研究

本文探讨使用不同的检测方法来对水印进行可靠的鉴别，并研究机器生成文本的大量观察对于水印的鉴别是否可靠，最终表明水印技术是一项可靠的解决方案，尤其是在样本复杂度越高时，水印证据会逐渐累积，并最终被检测出来。

Jun, 2023

大型语言模型水印的性能权衡

评估了在文本分类、摘要生成、翻译等任务中，嵌入水印对大语言模型的性能的影响，并发现水印对于多项选择题和短句生成基本没有影响，但对于摘要生成和翻译任务性能下降了 15-20%。这些发现凸显了用户在使用带有水印模型时应该意识到的权衡，并指出未来研究可能改善现有的权衡。

Nov, 2023

大型语言模型的水印

本研究提出了一种基于水印技术的保护私有语言模型的框架，通过嵌入可被算法识别但人类无法察觉的信号保证模型输出的安全性，并利用解释性 p 值的统计学方法检测水印的敏感性。测试结果表明本方法对于 Open Pretrained Transformer 等大型语言模型的检测效果良好，能够提升模型的鲁棒性和安全性。

Jan, 2023

辨识带水印的大型语言模型的基准

通过分析输出 token 和 logit 的分布，提出了一套基线算法来识别广泛使用的水印方案在大型语言模型中的存在和使用，并考虑了各种情况下的鉴别度和识别机制的权衡。同时，正式阐明了在大型语言模型和水印检测方面的特定问题。

May, 2023

标记我的言辞：分析和评估语言模型水印

在大型语言模型的能力与对其滥用的担忧日益增长的背景下，对机器生成的文本与人类作者的内容进行区分的能力变得重要。本研究侧重于文本水印技术而非图像水印，并提出了一个全面的评估框架，包括不同任务及实际攻击的水印技术基准。我们关注三个主要指标：质量、大小（例如，检测水印所需的标记数）和防篡改性。目前的水印技术已足够用于部署，但我们认为水印的不可辨认性要求过高；略微修改逻辑分布的方案在生成质量上胜过不可辨认的对应方案且无明显质量损失。我们公开发布我们的基准测试。

Dec, 2023

通过上下文感知的词汇替换追溯文本来源

本文提出了一种基于上下文感知词汇替换的自然语言水印方案，该方案使用 BERT 来推荐 LS 候选词，并基于同步性和可替换性设计选择策略，结果表明该水印方案能够很好地保留原始句子的语义完整性，并且具有更好的可转换性。

Dec, 2021

水印技术使语言模型放射性增强

调查了 LLM 生成的文本的辐射性，即是否可能检测到这种输入被用作训练数据；与成员推断等传统方法相比，我们发现水印训练数据留下的痕迹更容易检测且更可靠；我们将污染程度与水印的鲁棒性、在训练集中所占比例和微调过程联系起来；我们特别证明，即使仅有 5％的训练文本带有水印，也能以高置信度（p 值 < 1e-5）检测到在带有水印的合成指令上进行训练；因此，最初设计用于检测机器生成文本的 LLM 水印技术可以轻松识别是否使用带有水印的 LLM 的输出来进行微调。

Feb, 2024