Oct, 2023

语言模型的公开可检测水印

TL;DR我们构建了第一个能在语言模型中具备公开可检测性或验证性的可证明水印方案:我们使用私钥进行水印嵌入,使用公钥进行水印检测。我们的方案是第一个不在生成的文本中嵌入统计信号的水印方案。相反,我们直接使用一种拒绝采样的方式嵌入可公开验证的密码学签名。我们展示了我们的构建满足强形式的安全保证,并保留了在私钥水印设置方案中发现的许多可取性质。特别地,我们的水印方案保持了无失真性和模型不可知性。我们实现了我们的方案,并对在 7B 参数范围内的开放模型进行了实证测量。我们的实验表明,我们的水印方案在满足我们的形式性要求的同时保持了文本质量。