May, 2024

语言模型水印的黑盒检测

TL;DR水印技术被视为一种有效的方法来检测 LLM 生成的文本,此研究针对三种最流行的水印方案家族开发了严格的统计测试,使用有限数量的黑盒查询来检测它们的存在,并发现当前的水印方案比之前认为的更容易被检测到。