大型语言模型中的水印窃取
通过对现有 LLM 水印系统的攻击研究,提出了一套实用准则,用于生成和检测 LLM 水印,旨在解决水印系统在保留质量、鲁棒性和公共检测 API 等方面所面临的各种攻击问题。
Feb, 2024
在快速发展的人工智能领域中,保护大型语言模型(LLMs)的知识产权变得越来越关键。我们提出了一种新颖的方法,在 LLMs 中嵌入可学习的语言水印,以追踪和防止模型提取攻击。我们的方法通过向令牌频率分布中引入可控噪声来微妙地修改 LLM 的输出分布,嵌入可统计辨识的可控水印。我们利用统计假设检验和信息理论,特别关注库尔巴克 - 莱布勒散度,有效区分原始分布和修改分布。我们的水印方法在鲁棒性和输出质量之间达到了微妙的平衡,保持了较低的误报率和漏报率,并且保留了 LLM 的原始性能。
Apr, 2024
利用多目标优化方法实现识别性与语义完整性,我们提出了一种在大型语言模型生成的文本中嵌入水印的新方法。实验证明,我们的方法在提高大型语言模型生成文本的可识别性的同时保持其语义连贯性方面优于当前的水印技术。
Feb, 2024
我们提出了一种语义不变的大型语言模型水印方法,该方法在保证攻击鲁棒性和安全鲁棒性的基础上,通过利用另一个嵌入式大型语言模型生成语义嵌入,将其转化为水印逻辑。我们的实验证明了该方法在语义不变的设置下具有很强的攻击鲁棒性,并且水印具有充分的安全鲁棒性。
Oct, 2023
本研究提出了一种基于水印技术的保护私有语言模型的框架,通过嵌入可被算法识别但人类无法察觉的信号保证模型输出的安全性,并利用解释性 p 值的统计学方法检测水印的敏感性。测试结果表明本方法对于 Open Pretrained Transformer 等大型语言模型的检测效果良好,能够提升模型的鲁棒性和安全性。
Jan, 2023
水印技术被视为一种有效的方法来检测 LLM 生成的文本,此研究针对三种最流行的水印方案家族开发了严格的统计测试,使用有限数量的黑盒查询来检测它们的存在,并发现当前的水印方案比之前认为的更容易被检测到。
May, 2024
我们研究了如何给 LLM 输出添加水印,即将可算法检测到的信号嵌入 LLM 生成的文本以跟踪滥用。与目前主流方法不同,我们扩大了水印设计空间,将 LLM 调整阶段包括在水印流程中。通过强化学习提出了一种共同训练框架,迭代地 (1) 训练一个检测器来检测生成的带水印文本,(2) 调整 LLM 以生成容易被检测器检测到的文本,同时保持其正常效用。我们实证表明我们的水印更准确、更稳健、更适应新的攻击。此外,如果与对齐一起使用,额外引入的开销很低,只需要训练一个额外的奖励模型 (即我们的检测器)。我们希望我们的工作能够引起更多关于更广泛的水印设计的研究努力,不局限于与固定 LLM 一起工作。我们开源了代码:this https URL。
Mar, 2024
本文探讨使用不同的检测方法来对水印进行可靠的鉴别,并研究机器生成文本的大量观察对于水印的鉴别是否可靠,最终表明水印技术是一项可靠的解决方案,尤其是在样本复杂度越高时,水印证据会逐渐累积,并最终被检测出来。
Jun, 2023
我们提出了第一种私有水印算法,通过使用两个不同的神经网络进行水印生成和检测,扩展了当前的文本水印算法,而不是在两个阶段都使用相同的密钥,实现了高效准确地检测网络,并且对生成和检测速度影响小。
Jul, 2023