Feb, 2024

大型语言模型中的水印窃取

TL;DRLLM 水印技术的研究表明当前方案的可部署性存在争议,因为我们发现了基于这些方案的水印窃取攻击和刷水攻击的重大漏洞。我们提出了一种自动化的水印窃取算法,并在实际环境中对伪造和刷水进行全面研究,揭示出以前被忽视的攻击能力和成功率。这些发现对 LLM 水印技术的普遍认知提出了挑战,强调了更强大方案的需求。