Jul, 2023

强大且无失真的语言模型水印

TL;DR我们提出了一种在自回归语言模型中种植水印的方法,这些水印在不改变一定最大生成预算下的文本分布的情况下对扰动具有鲁棒性。我们通过使用随机水印密钥计算的随机数序列映射到语言模型的样本来生成带水印的文本。为了检测带水印的文本,任何知道密钥的一方可以将文本与随机数序列对齐。我们用两种采样方案来实例化我们的水印方法:逆变换采样和指数最小采样。我们将这些水印应用到三个语言模型(OPT-1.3B,LLaMA-7B 和 Alpaca-7B)上,以实验证明它们对各种释义攻击的统计功率和鲁棒性。值得注意的是,在 OPT-1.3B 和 LLaMA-7B 模型中,即使在通过随机编辑(即替换、插入或删除)破坏了 40-50% 的标记之后,我们仍然可以可靠地检测到带水印的文本(p≤0.01)35 个标记。对于 Alpaca-7B 模型,我们对典型用户指令的水印响应可行性进行了案例研究。由于响应的熵较低,检测更加困难:约 25% 的响应(中位长度约为 100 个标记)可以在 p≤0.01 的条件下检测到,而水印也对我们实施的某些自动释义攻击不太鲁棒。