LLM 生成的代码是否具有稳定性的数字水印技术研究

Mar, 2024

LLM 生成的代码是否具有稳定性的数字水印技术研究

Is Watermarking LLM-Generated Code Robust?

PDF

Tarun Suresh, Shubham Ugare, Gagandeep Singh, Sasa Misailovic

TL;DR我们对大型语言模型生成的 Python 代码的现有水印技术的鲁棒性进行了首次研究，发现虽然已有的研究表明水印技术对自然语言可能是鲁棒的，但我们发现通过语义保持变换很容易去除这些代码水印。

Abstract

We present the first study of the robustness of existing watermarking techniques on python code generated by →

watermarking python code large language models robustness semantic-preserving transformations

发现论文，激发创造

利用其优势攻击 LLM 水印

通过对现有 LLM 水印系统的攻击研究，提出了一套实用准则，用于生成和检测 LLM 水印，旨在解决水印系统在保留质量、鲁棒性和公共检测 API 等方面所面临的各种攻击问题。

Feb, 2024

代码生成的水印：谁编写了这个代码？

本文发现现有的基于大型语言模型的文字水印和机器生成文字检测方法不能很好地应用于代码生成任务，因此提出了 SWEET 的新水印方法，其在标记的选择方面较先前方法具有更高的熵门限，实验表明我们的水印代码比先前状态下的大型语言模型水印方法生成的代码具有更好的质量，并凭借该方法在机器生成代码检测任务中表现优异。

May, 2023

大型语言模型的语义不变鲁棒水印

我们提出了一种语义不变的大型语言模型水印方法，该方法在保证攻击鲁棒性和安全鲁棒性的基础上，通过利用另一个嵌入式大型语言模型生成语义嵌入，将其转化为水印逻辑。我们的实验证明了该方法在语义不变的设置下具有很强的攻击鲁棒性，并且水印具有充分的安全鲁棒性。

Oct, 2023

大型语言模型的水印

本研究提出了一种基于水印技术的保护私有语言模型的框架，通过嵌入可被算法识别但人类无法察觉的信号保证模型输出的安全性，并利用解释性 p 值的统计学方法检测水印的敏感性。测试结果表明本方法对于 Open Pretrained Transformer 等大型语言模型的检测效果良好，能够提升模型的鲁棒性和安全性。

Jan, 2023

评估耐久性：多模式数字水印的基准洞察

水印技术的鲁棒性在实际应用中的重要性和可靠性，并通过评估图片和文本生成模型生成的带水印内容在常见的实际场景下的鲁棒性验证了这一点。

Jun, 2024

巩固大型语言模型的三个水印砖块

该研究以三个理论和实证考虑为基础，为大型语言模型提出了水印的方法，其中包括新的统计测试、经典基准的效果比较以及高级侦测方案的开发。

Jul, 2023

基于不变特征的自然语言鲁棒水印技术

本文研究一种基于自然语言的水印系统，旨在通过嵌入足够的信息和提取不变特征以提高其负载能力和鲁棒性，进而提高水印系统的版权保护能力。通过系统分析提出了一种抗干扰的填充模型，并建立了一个对比实验，结果表明该方法相较于之前的方法鲁棒性平均提高了百分之十六点八。

May, 2023

使用纠错码为语言模型添加水印

最近大型语言模型在创造逼真的机器生成内容方面取得了进展。水印技术是一种有希望的方法，用于区分机器生成的文本和人类文本，将统计信号嵌入输出中，理想情况下对人类来说是不可察觉的。我们提出了一种水印技术框架，通过纠错码来编码这些信号。我们的方法被称为鲁棒二进制码（RBC）水印，与原概率分布相比，不引入失真，并且质量几乎无明显降低。我们对基础模型和指令微调模型评估了我们的水印，在编辑、删除和翻译方面都表现出鲁棒性。我们提供了水印技术的信息论视角、一种强大的统计检测和生成 p 值的测试以及理论保证。我们的实证结果表明，相对于最先进技术，我们的水印技术速度快、强大且鲁棒性好。

Jun, 2024

关于大型语言模型中水印可靠性的研究

本文探讨使用不同的检测方法来对水印进行可靠的鉴别，并研究机器生成文本的大量观察对于水印的鉴别是否可靠，最终表明水印技术是一项可靠的解决方案，尤其是在样本复杂度越高时，水印证据会逐渐累积，并最终被检测出来。

Jun, 2023

大型语言模型中的水印窃取

LLM 水印技术的研究表明当前方案的可部署性存在争议，因为我们发现了基于这些方案的水印窃取攻击和刷水攻击的重大漏洞。我们提出了一种自动化的水印窃取算法，并在实际环境中对伪造和刷水进行全面研究，揭示出以前被忽视的攻击能力和成功率。这些发现对 LLM 水印技术的普遍认知提出了挑战，强调了更强大方案的需求。

Feb, 2024