Nov, 2023

沙滩上的水印:生成模型的强水印化的不可能性

TL;DR在本文中,我们研究了强水印方案的(不)可能性。我们证明了在给定合理和自然的假设下,无法实现强水印。即使在私有检测算法设置下,即水印插入和检测算法共享一个对攻击者不知情的秘钥,此结果仍然成立。为了证明这个结果,我们引入了一个通用的高效水印攻击方法;攻击者不需要知道方案的私钥,甚至不需要知道使用的是哪个方案。我们的攻击基于两个假设:(1)攻击者可以访问 “质量 Oracle”,评估候选输出是否对提示有高质量的响应;(2)攻击者可以访问 “扰动 Oracle”,它可以以较高的概率修改输出,同时保持质量,并在高质量输出上诱导有效混合的随机游走。我们认为,这两个假设在实践中可以由比水印模型自身计算能力更弱的攻击者满足,攻击者只能以黑盒方式访问。此外,随着模型的能力和形式多样性的增长,我们的假设很可能随着时间的推移变得更容易满足。我们通过实施攻击来展示我们攻击的可行性,用于攻击大型语言模型的三个现有水印方案:Kirchenbauer 等(2023),Kuditipudi 等(2023)和 Zhao 等(2023)方案。同样的攻击成功去除了所有三个方案植入的水印,仅有轻微的质量降低。