大型语言模型水印方案及其鲁棒性研究
May, 2024
通过对现有 LLM 水印系统的攻击研究,提出了一套实用准则,用于生成和检测 LLM 水印,旨在解决水印系统在保留质量、鲁棒性和公共检测 API 等方面所面临的各种攻击问题。
Feb, 2024
本文探讨使用不同的检测方法来对水印进行可靠的鉴别,并研究机器生成文本的大量观察对于水印的鉴别是否可靠,最终表明水印技术是一项可靠的解决方案,尤其是在样本复杂度越高时,水印证据会逐渐累积,并最终被检测出来。
Jun, 2023
在快速发展的人工智能领域中,保护大型语言模型(LLMs)的知识产权变得越来越关键。我们提出了一种新颖的方法,在 LLMs 中嵌入可学习的语言水印,以追踪和防止模型提取攻击。我们的方法通过向令牌频率分布中引入可控噪声来微妙地修改 LLM 的输出分布,嵌入可统计辨识的可控水印。我们利用统计假设检验和信息理论,特别关注库尔巴克 - 莱布勒散度,有效区分原始分布和修改分布。我们的水印方法在鲁棒性和输出质量之间达到了微妙的平衡,保持了较低的误报率和漏报率,并且保留了 LLM 的原始性能。
Apr, 2024
通过文本水印技术,在生成的文本中嵌入不可见但可检测的模式,有助于追踪和验证文本来源,从而防止滥用和盗版。该综述对当前的文本水印技术进行了全面总结,包括不同技术的概述和比较、算法的评估方法以及可能的应用领域,以帮助研究人员全面了解文本水印技术、促进进一步的发展。
Dec, 2023
使用多目标优化问题的系统方法介绍了大规模语言模型、水印、生成型语言模型、可识别性和多目标优化问题相关的本研究领域。
通过分析输出 token 和 logit 的分布,提出了一套基线算法来识别广泛使用的水印方案在大型语言模型中的存在和使用,并考虑了各种情况下的鉴别度和识别机制的权衡。同时,正式阐明了在大型语言模型和水印检测方面的特定问题。
May, 2023
利用多目标优化方法实现识别性与语义完整性,我们提出了一种在大型语言模型生成的文本中嵌入水印的新方法。实验证明,我们的方法在提高大型语言模型生成文本的可识别性的同时保持其语义连贯性方面优于当前的水印技术。
评估了在文本分类、摘要生成、翻译等任务中,嵌入水印对大语言模型的性能的影响,并发现水印对于多项选择题和短句生成基本没有影响,但对于摘要生成和翻译任务性能下降了 15-20%。这些发现凸显了用户在使用带有水印模型时应该意识到的权衡,并指出未来研究可能改善现有的权衡。
Nov, 2023
评估大语言模型水印技术的新方法,并揭示了当前水印方法的可检测性、对文本质量的影响以及评估水印质量的重要性。