水印技术使语言模型放射性增强
评估了在文本分类、摘要生成、翻译等任务中,嵌入水印对大语言模型的性能的影响,并发现水印对于多项选择题和短句生成基本没有影响,但对于摘要生成和翻译任务性能下降了 15-20%。这些发现凸显了用户在使用带有水印模型时应该意识到的权衡,并指出未来研究可能改善现有的权衡。
Nov, 2023
在快速发展的人工智能领域中,保护大型语言模型(LLMs)的知识产权变得越来越关键。我们提出了一种新颖的方法,在 LLMs 中嵌入可学习的语言水印,以追踪和防止模型提取攻击。我们的方法通过向令牌频率分布中引入可控噪声来微妙地修改 LLM 的输出分布,嵌入可统计辨识的可控水印。我们利用统计假设检验和信息理论,特别关注库尔巴克 - 莱布勒散度,有效区分原始分布和修改分布。我们的水印方法在鲁棒性和输出质量之间达到了微妙的平衡,保持了较低的误报率和漏报率,并且保留了 LLM 的原始性能。
Apr, 2024
防止语言模型误用的关键在于检测其生成的文本,此文介绍了一种基于水印的白盒 LLMs 方法,以及为黑盒 LLMs 开发的水印框架,实现了自主注入水印以避免在 API 下载应用时因选择黑盒 LLMs 而导致不能使用水印的问题。
May, 2023
本文探讨使用不同的检测方法来对水印进行可靠的鉴别,并研究机器生成文本的大量观察对于水印的鉴别是否可靠,最终表明水印技术是一项可靠的解决方案,尤其是在样本复杂度越高时,水印证据会逐渐累积,并最终被检测出来。
Jun, 2023
我们研究了如何给 LLM 输出添加水印,即将可算法检测到的信号嵌入 LLM 生成的文本以跟踪滥用。与目前主流方法不同,我们扩大了水印设计空间,将 LLM 调整阶段包括在水印流程中。通过强化学习提出了一种共同训练框架,迭代地 (1) 训练一个检测器来检测生成的带水印文本,(2) 调整 LLM 以生成容易被检测器检测到的文本,同时保持其正常效用。我们实证表明我们的水印更准确、更稳健、更适应新的攻击。此外,如果与对齐一起使用,额外引入的开销很低,只需要训练一个额外的奖励模型 (即我们的检测器)。我们希望我们的工作能够引起更多关于更广泛的水印设计的研究努力,不局限于与固定 LLM 一起工作。我们开源了代码:this https URL。
Mar, 2024
通过水印技术对语言模型生成的文本进行统计检测,有助于在语言模型的负责部署中应用,文章提出了水印蒸馏的方法,通过训练学生模型模仿使用解码器水印技术的教师模型,研究发现模型能够学会生成高可检测性的水印文本,但也存在一些限制。
Dec, 2023
利用数据水印将版权持有者的作品用于 LLM 预训练进行检测,可作为一个重要的问题。我们研究了使用数据水印进行便于黑箱模型访问的有原则的检测的方法。通过应用随机抽样的数据水印,我们将检测问题构建为假设检验,从而提供了关于虚警率的保证。我们分析了水印的三个方面 —— 水印长度、复制次数和干扰,对假设检验的能力产生了影响。同时研究了水印在模型和数据集缩放下的检测力变化:虽然增加数据集规模会降低水印的检测力,但如果模型大小也增加,水印仍然具有一定的强度。最后,我们将 SHA 哈希视为自然水印,并展示了我们能够鲁棒地检测来自 BLOOM-176B 的训练数据中的哈希,只要它们出现了至少 90 次。综上,我们的结果指向了数据水印在实际应用中具有广阔前景。
Feb, 2024
本研究提出了一种基于水印技术的保护私有语言模型的框架,通过嵌入可被算法识别但人类无法察觉的信号保证模型输出的安全性,并利用解释性 p 值的统计学方法检测水印的敏感性。测试结果表明本方法对于 Open Pretrained Transformer 等大型语言模型的检测效果良好,能够提升模型的鲁棒性和安全性。
Jan, 2023
我们提出了一种在自回归语言模型中种植水印的方法,这些水印在不改变一定最大生成预算下的文本分布的情况下对扰动具有鲁棒性。我们通过使用随机水印密钥计算的随机数序列映射到语言模型的样本来生成带水印的文本。为了检测带水印的文本,任何知道密钥的一方可以将文本与随机数序列对齐。我们用两种采样方案来实例化我们的水印方法:逆变换采样和指数最小采样。我们将这些水印应用到三个语言模型(OPT-1.3B,LLaMA-7B 和 Alpaca-7B)上,以实验证明它们对各种释义攻击的统计功率和鲁棒性。值得注意的是,在 OPT-1.3B 和 LLaMA-7B 模型中,即使在通过随机编辑(即替换、插入或删除)破坏了 40-50% 的标记之后,我们仍然可以可靠地检测到带水印的文本(p≤0.01)35 个标记。对于 Alpaca-7B 模型,我们对典型用户指令的水印响应可行性进行了案例研究。由于响应的熵较低,检测更加困难:约 25% 的响应(中位长度约为 100 个标记)可以在 p≤0.01 的条件下检测到,而水印也对我们实施的某些自动释义攻击不太鲁棒。
Jul, 2023