May, 2023

语言模型的不可检测水印

TL;DR本文章研究如何对大型语言模型进行不可检测的数字水印嵌入,采用密码学中的单向函数进行构建,使得即使用户能够适应性查询,也难以区分带水印的输出和原始模型的输出,从而保证文本质量。