Oct, 2023

大型语言模型的语义不变鲁棒水印

TL;DR我们提出了一种语义不变的大型语言模型水印方法,该方法在保证攻击鲁棒性和安全鲁棒性的基础上,通过利用另一个嵌入式大型语言模型生成语义嵌入,将其转化为水印逻辑。我们的实验证明了该方法在语义不变的设置下具有很强的攻击鲁棒性,并且水印具有充分的安全鲁棒性。