利用混合整数规划进行大型语言模型水印窃取
LLM 水印技术的研究表明当前方案的可部署性存在争议,因为我们发现了基于这些方案的水印窃取攻击和刷水攻击的重大漏洞。我们提出了一种自动化的水印窃取算法,并在实际环境中对伪造和刷水进行全面研究,揭示出以前被忽视的攻击能力和成功率。这些发现对 LLM 水印技术的普遍认知提出了挑战,强调了更强大方案的需求。
Feb, 2024
本文研究了大型语言模型(LLMs)的水印问题,并将其模型畸变和检测能力之间的权衡视为一个基于 Kirchenbauer 等人(2023a)的绿 - 红算法的约束优化问题。通过该优化问题的最优解,我们证明了其具有良好的解析特性,从而更好地理解并启发了水印过程的算法设计。在此优化公式的基础上,我们开发了一种在线对偶梯度上升水印算法,并证明了其在模型畸变和检测能力之间的渐近帕累托最优性。这样的结果保证了平均增加的绿色列表概率和因此明确的检测能力(与之前的结果相比)。此外,我们对水印问题中模型畸变度量的选择进行了系统讨论。我们证明了选择 KL 散度的合理性,并介绍了现有的 “无畸变” 和困惑度标准存在的问题。最后,我们通过对广泛数据集的对比算法进行了实证评估。
Mar, 2024
在快速发展的人工智能领域中,保护大型语言模型(LLMs)的知识产权变得越来越关键。我们提出了一种新颖的方法,在 LLMs 中嵌入可学习的语言水印,以追踪和防止模型提取攻击。我们的方法通过向令牌频率分布中引入可控噪声来微妙地修改 LLM 的输出分布,嵌入可统计辨识的可控水印。我们利用统计假设检验和信息理论,特别关注库尔巴克 - 莱布勒散度,有效区分原始分布和修改分布。我们的水印方法在鲁棒性和输出质量之间达到了微妙的平衡,保持了较低的误报率和漏报率,并且保留了 LLM 的原始性能。
Apr, 2024
本研究提出了一种基于水印技术的保护私有语言模型的框架,通过嵌入可被算法识别但人类无法察觉的信号保证模型输出的安全性,并利用解释性 p 值的统计学方法检测水印的敏感性。测试结果表明本方法对于 Open Pretrained Transformer 等大型语言模型的检测效果良好,能够提升模型的鲁棒性和安全性。
Jan, 2023
通过对现有 LLM 水印系统的攻击研究,提出了一套实用准则,用于生成和检测 LLM 水印,旨在解决水印系统在保留质量、鲁棒性和公共检测 API 等方面所面临的各种攻击问题。
Feb, 2024
我们提出了一种语义不变的大型语言模型水印方法,该方法在保证攻击鲁棒性和安全鲁棒性的基础上,通过利用另一个嵌入式大型语言模型生成语义嵌入,将其转化为水印逻辑。我们的实验证明了该方法在语义不变的设置下具有很强的攻击鲁棒性,并且水印具有充分的安全鲁棒性。
Oct, 2023
通过分析输出 token 和 logit 的分布,提出了一套基线算法来识别广泛使用的水印方案在大型语言模型中的存在和使用,并考虑了各种情况下的鉴别度和识别机制的权衡。同时,正式阐明了在大型语言模型和水印检测方面的特定问题。
May, 2023
提出了一种新的方法来生成文本水印,通过策略性地改变生成过程中的令牌概率,利用语言学特征(如风格学)对大型语言模型(LLMs)进行参数化,以提高鲁棒性和应对传统攻击。
May, 2024