大型语言模型中的水印窃取

Feb, 2024

Watermark Stealing in Large Language Models

Nikola Jovanović, Robin Staab, Martin Vechev

TL;DRLLM 水印技术的研究表明当前方案的可部署性存在争议，因为我们发现了基于这些方案的水印窃取攻击和刷水攻击的重大漏洞。我们提出了一种自动化的水印窃取算法，并在实际环境中对伪造和刷水进行全面研究，揭示出以前被忽视的攻击能力和成功率。这些发现对 LLM 水印技术的普遍认知提出了挑战，强调了更强大方案的需求。

Abstract

llm watermarking has attracted attention as a promising way to detect AI-generated content, with some works suggesting that current schemes may already be fit for deployment. In this work we dispute this claim, identifying →

llm watermarking watermark stealing spoofing attacks scrubbing attacks automated ws algorithm

发现论文，激发创造

利用混合整数规划进行大型语言模型水印窃取

大型语言模型水印方案及其鲁棒性研究

May, 2024

利用其优势攻击 LLM 水印

通过对现有 LLM 水印系统的攻击研究，提出了一套实用准则，用于生成和检测 LLM 水印，旨在解决水印系统在保留质量、鲁棒性和公共检测 API 等方面所面临的各种攻击问题。

Feb, 2024

可学习的语言水印：对大型语言模型的模型提取攻击进行追踪

在快速发展的人工智能领域中，保护大型语言模型（LLMs）的知识产权变得越来越关键。我们提出了一种新颖的方法，在 LLMs 中嵌入可学习的语言水印，以追踪和防止模型提取攻击。我们的方法通过向令牌频率分布中引入可控噪声来微妙地修改 LLM 的输出分布，嵌入可统计辨识的可控水印。我们利用统计假设检验和信息理论，特别关注库尔巴克 - 莱布勒散度，有效区分原始分布和修改分布。我们的水印方法在鲁棒性和输出质量之间达到了微妙的平衡，保持了较低的误报率和漏报率，并且保留了 LLM 的原始性能。

Apr, 2024

大型语言模型的增强可检测性和语义一致性的特定记号水印

利用多目标优化方法实现识别性与语义完整性，我们提出了一种在大型语言模型生成的文本中嵌入水印的新方法。实验证明，我们的方法在提高大型语言模型生成文本的可识别性的同时保持其语义连贯性方面优于当前的水印技术。

Feb, 2024

大型语言模型的语义不变鲁棒水印

我们提出了一种语义不变的大型语言模型水印方法，该方法在保证攻击鲁棒性和安全鲁棒性的基础上，通过利用另一个嵌入式大型语言模型生成语义嵌入，将其转化为水印逻辑。我们的实验证明了该方法在语义不变的设置下具有很强的攻击鲁棒性，并且水印具有充分的安全鲁棒性。

Oct, 2023

大型语言模型的水印

本研究提出了一种基于水印技术的保护私有语言模型的框架，通过嵌入可被算法识别但人类无法察觉的信号保证模型输出的安全性，并利用解释性 p 值的统计学方法检测水印的敏感性。测试结果表明本方法对于 Open Pretrained Transformer 等大型语言模型的检测效果良好，能够提升模型的鲁棒性和安全性。

Jan, 2023

语言模型水印的黑盒检测

水印技术被视为一种有效的方法来检测 LLM 生成的文本，此研究针对三种最流行的水印方案家族开发了严格的统计测试，使用有限数量的黑盒查询来检测它们的存在，并发现当前的水印方案比之前认为的更容易被检测到。

May, 2024

通过强化学习学习为 LLM 生成的文本添加水印

我们研究了如何给 LLM 输出添加水印，即将可算法检测到的信号嵌入 LLM 生成的文本以跟踪滥用。与目前主流方法不同，我们扩大了水印设计空间，将 LLM 调整阶段包括在水印流程中。通过强化学习提出了一种共同训练框架，迭代地 (1) 训练一个检测器来检测生成的带水印文本，(2) 调整 LLM 以生成容易被检测器检测到的文本，同时保持其正常效用。我们实证表明我们的水印更准确、更稳健、更适应新的攻击。此外，如果与对齐一起使用，额外引入的开销很低，只需要训练一个额外的奖励模型 (即我们的检测器)。我们希望我们的工作能够引起更多关于更广泛的水印设计的研究努力，不局限于与固定 LLM 一起工作。我们开源了代码：this https URL。

Mar, 2024

关于大型语言模型中水印可靠性的研究

本文探讨使用不同的检测方法来对水印进行可靠的鉴别，并研究机器生成文本的大量观察对于水印的鉴别是否可靠，最终表明水印技术是一项可靠的解决方案，尤其是在样本复杂度越高时，水印证据会逐渐累积，并最终被检测出来。

Jun, 2023

大型语言模型的私有水印

我们提出了第一种私有水印算法，通过使用两个不同的神经网络进行水印生成和检测，扩展了当前的文本水印算法，而不是在两个阶段都使用相同的密钥，实现了高效准确地检测网络，并且对生成和检测速度影响小。

Jul, 2023