大型语言模型的多比特无失真水印技术
我们提出了一种在自回归语言模型中种植水印的方法,这些水印在不改变一定最大生成预算下的文本分布的情况下对扰动具有鲁棒性。我们通过使用随机水印密钥计算的随机数序列映射到语言模型的样本来生成带水印的文本。为了检测带水印的文本,任何知道密钥的一方可以将文本与随机数序列对齐。我们用两种采样方案来实例化我们的水印方法:逆变换采样和指数最小采样。我们将这些水印应用到三个语言模型(OPT-1.3B,LLaMA-7B 和 Alpaca-7B)上,以实验证明它们对各种释义攻击的统计功率和鲁棒性。值得注意的是,在 OPT-1.3B 和 LLaMA-7B 模型中,即使在通过随机编辑(即替换、插入或删除)破坏了 40-50% 的标记之后,我们仍然可以可靠地检测到带水印的文本(p≤0.01)35 个标记。对于 Alpaca-7B 模型,我们对典型用户指令的水印响应可行性进行了案例研究。由于响应的熵较低,检测更加困难:约 25% 的响应(中位长度约为 100 个标记)可以在 p≤0.01 的条件下检测到,而水印也对我们实施的某些自动释义攻击不太鲁棒。
Jul, 2023
本研究以主动应对大型语言模型的滥用问题为目标,针对一些恶意滥用需要追踪对手用户的情况,提出了 “多位比特水印技术基于颜色排序”(COLOR)方法,在语言模型生成过程中嵌入可追踪的多位比特信息。COLOR 利用了零位水印技术的优势,实现了无需模型访问的提取,即时嵌入,并保持了文本质量,同时还可以进行零位检测。初步实验展示了在中等长度(约 500 个标记)的文本中成功嵌入 32 位信息,准确率为 91.9%。本研究推进了对抗语言模型滥用的有效策略。
Aug, 2023
本研究提出了一种基于水印技术的保护私有语言模型的框架,通过嵌入可被算法识别但人类无法察觉的信号保证模型输出的安全性,并利用解释性 p 值的统计学方法检测水印的敏感性。测试结果表明本方法对于 Open Pretrained Transformer 等大型语言模型的检测效果良好,能够提升模型的鲁棒性和安全性。
Jan, 2023
本文章研究如何对大型语言模型进行不可检测的数字水印嵌入,采用密码学中的单向函数进行构建,使得即使用户能够适应性查询,也难以区分带水印的输出和原始模型的输出,从而保证文本质量。
May, 2023
零比特的水印语言模型能产生与底层模型无法区分的文本,但可以通过密钥检测为机器生成,我们通过多用户水印技术实现追踪模型生成文本的个人或合谋用户,同时提供零比特和多用户保证,以及构建了将长信息嵌入生成文本的水印技术。同时,通过引入 AEB 鲁棒性,解决了黑盒降维中对鲁棒性缺乏统一抽象的挑战,使我们的构建方案与底层零比特方案的鲁棒性属性关联,并且我们的方案对自适应提示是强鲁棒的。
May, 2024
利用多目标优化方法实现识别性与语义完整性,我们提出了一种在大型语言模型生成的文本中嵌入水印的新方法。实验证明,我们的方法在提高大型语言模型生成文本的可识别性的同时保持其语义连贯性方面优于当前的水印技术。
Feb, 2024
我们构建了第一个能在语言模型中具备公开可检测性或验证性的可证明水印方案:我们使用私钥进行水印嵌入,使用公钥进行水印检测。我们的方案是第一个不在生成的文本中嵌入统计信号的水印方案。相反,我们直接使用一种拒绝采样的方式嵌入可公开验证的密码学签名。我们展示了我们的构建满足强形式的安全保证,并保留了在私钥水印设置方案中发现的许多可取性质。特别地,我们的水印方案保持了无失真性和模型不可知性。我们实现了我们的方案,并对在 7B 参数范围内的开放模型进行了实证测量。我们的实验表明,我们的水印方案在满足我们的形式性要求的同时保持了文本质量。
Oct, 2023
我们提出了第一种私有水印算法,通过使用两个不同的神经网络进行水印生成和检测,扩展了当前的文本水印算法,而不是在两个阶段都使用相同的密钥,实现了高效准确地检测网络,并且对生成和检测速度影响小。
Jul, 2023
在快速发展的人工智能领域中,保护大型语言模型(LLMs)的知识产权变得越来越关键。我们提出了一种新颖的方法,在 LLMs 中嵌入可学习的语言水印,以追踪和防止模型提取攻击。我们的方法通过向令牌频率分布中引入可控噪声来微妙地修改 LLM 的输出分布,嵌入可统计辨识的可控水印。我们利用统计假设检验和信息理论,特别关注库尔巴克 - 莱布勒散度,有效区分原始分布和修改分布。我们的水印方法在鲁棒性和输出质量之间达到了微妙的平衡,保持了较低的误报率和漏报率,并且保留了 LLM 的原始性能。
Apr, 2024