LLM 生成的代码是否具有稳定性的数字水印技术研究
通过对现有 LLM 水印系统的攻击研究,提出了一套实用准则,用于生成和检测 LLM 水印,旨在解决水印系统在保留质量、鲁棒性和公共检测 API 等方面所面临的各种攻击问题。
Feb, 2024
本文发现现有的基于大型语言模型的文字水印和机器生成文字检测方法不能很好地应用于代码生成任务,因此提出了 SWEET 的新水印方法,其在标记的选择方面较先前方法具有更高的熵门限,实验表明我们的水印代码比先前状态下的大型语言模型水印方法生成的代码具有更好的质量,并凭借该方法在机器生成代码检测任务中表现优异。
May, 2023
我们提出了一种语义不变的大型语言模型水印方法,该方法在保证攻击鲁棒性和安全鲁棒性的基础上,通过利用另一个嵌入式大型语言模型生成语义嵌入,将其转化为水印逻辑。我们的实验证明了该方法在语义不变的设置下具有很强的攻击鲁棒性,并且水印具有充分的安全鲁棒性。
Oct, 2023
本研究提出了一种基于水印技术的保护私有语言模型的框架,通过嵌入可被算法识别但人类无法察觉的信号保证模型输出的安全性,并利用解释性 p 值的统计学方法检测水印的敏感性。测试结果表明本方法对于 Open Pretrained Transformer 等大型语言模型的检测效果良好,能够提升模型的鲁棒性和安全性。
Jan, 2023
本文研究一种基于自然语言的水印系统,旨在通过嵌入足够的信息和提取不变特征以提高其负载能力和鲁棒性,进而提高水印系统的版权保护能力。通过系统分析提出了一种抗干扰的填充模型,并建立了一个对比实验,结果表明该方法相较于之前的方法鲁棒性平均提高了百分之十六点八。
May, 2023
最近大型语言模型在创造逼真的机器生成内容方面取得了进展。水印技术是一种有希望的方法,用于区分机器生成的文本和人类文本,将统计信号嵌入输出中,理想情况下对人类来说是不可察觉的。我们提出了一种水印技术框架,通过纠错码来编码这些信号。我们的方法被称为鲁棒二进制码(RBC)水印,与原概率分布相比,不引入失真,并且质量几乎无明显降低。我们对基础模型和指令微调模型评估了我们的水印,在编辑、删除和翻译方面都表现出鲁棒性。我们提供了水印技术的信息论视角、一种强大的统计检测和生成 p 值的测试以及理论保证。我们的实证结果表明,相对于最先进技术,我们的水印技术速度快、强大且鲁棒性好。
Jun, 2024
本文探讨使用不同的检测方法来对水印进行可靠的鉴别,并研究机器生成文本的大量观察对于水印的鉴别是否可靠,最终表明水印技术是一项可靠的解决方案,尤其是在样本复杂度越高时,水印证据会逐渐累积,并最终被检测出来。
Jun, 2023
LLM 水印技术的研究表明当前方案的可部署性存在争议,因为我们发现了基于这些方案的水印窃取攻击和刷水攻击的重大漏洞。我们提出了一种自动化的水印窃取算法,并在实际环境中对伪造和刷水进行全面研究,揭示出以前被忽视的攻击能力和成功率。这些发现对 LLM 水印技术的普遍认知提出了挑战,强调了更强大方案的需求。
Feb, 2024