May, 2024

增强水印语言模型以识别用户

TL;DR零比特的水印语言模型能产生与底层模型无法区分的文本,但可以通过密钥检测为机器生成,我们通过多用户水印技术实现追踪模型生成文本的个人或合谋用户,同时提供零比特和多用户保证,以及构建了将长信息嵌入生成文本的水印技术。同时,通过引入 AEB 鲁棒性,解决了黑盒降维中对鲁棒性缺乏统一抽象的挑战,使我们的构建方案与底层零比特方案的鲁棒性属性关联,并且我们的方案对自适应提示是强鲁棒的。