辨识带水印的大型语言模型的基准
在快速发展的人工智能领域中,保护大型语言模型(LLMs)的知识产权变得越来越关键。我们提出了一种新颖的方法,在 LLMs 中嵌入可学习的语言水印,以追踪和防止模型提取攻击。我们的方法通过向令牌频率分布中引入可控噪声来微妙地修改 LLM 的输出分布,嵌入可统计辨识的可控水印。我们利用统计假设检验和信息理论,特别关注库尔巴克 - 莱布勒散度,有效区分原始分布和修改分布。我们的水印方法在鲁棒性和输出质量之间达到了微妙的平衡,保持了较低的误报率和漏报率,并且保留了 LLM 的原始性能。
Apr, 2024
在大型语言模型的能力与对其滥用的担忧日益增长的背景下,对机器生成的文本与人类作者的内容进行区分的能力变得重要。本研究侧重于文本水印技术而非图像水印,并提出了一个全面的评估框架,包括不同任务及实际攻击的水印技术基准。我们关注三个主要指标:质量、大小(例如,检测水印所需的标记数)和防篡改性。目前的水印技术已足够用于部署,但我们认为水印的不可辨认性要求过高;略微修改逻辑分布的方案在生成质量上胜过不可辨认的对应方案且无明显质量损失。我们公开发布我们的基准测试。
Dec, 2023
本研究提出了一种基于水印技术的保护私有语言模型的框架,通过嵌入可被算法识别但人类无法察觉的信号保证模型输出的安全性,并利用解释性 p 值的统计学方法检测水印的敏感性。测试结果表明本方法对于 Open Pretrained Transformer 等大型语言模型的检测效果良好,能够提升模型的鲁棒性和安全性。
Jan, 2023
水印技术被视为一种有效的方法来检测 LLM 生成的文本,此研究针对三种最流行的水印方案家族开发了严格的统计测试,使用有限数量的黑盒查询来检测它们的存在,并发现当前的水印方案比之前认为的更容易被检测到。
May, 2024
本文探讨使用不同的检测方法来对水印进行可靠的鉴别,并研究机器生成文本的大量观察对于水印的鉴别是否可靠,最终表明水印技术是一项可靠的解决方案,尤其是在样本复杂度越高时,水印证据会逐渐累积,并最终被检测出来。
Jun, 2023
提出了一种基于主题的水印算法用于大语言模型,该算法能够根据输入提示或非水印语言模型的输出提取主题,并生成带有水印的模型输出,进一步展示了水印检测算法的实用性,并讨论了可能出现的各种针对大语言模型水印算法的攻击以及提出的水印算法的优势。
Apr, 2024
为了解决大型语言模型的滥用问题,该研究开发了水印算法,通过限制生成过程以留下不可见痕迹进行水印检测。本文引入了 WaterBench,第一个针对大型语言模型水印的全面基准测试,通过设计三个关键要素进行了综合评估,包括基准测试过程、任务选择和评估指标,观察到当前方法在保持生成质量方面存在共同困难。
Nov, 2023
本文研究了大型语言模型(LLMs)的水印问题,并将其模型畸变和检测能力之间的权衡视为一个基于 Kirchenbauer 等人(2023a)的绿 - 红算法的约束优化问题。通过该优化问题的最优解,我们证明了其具有良好的解析特性,从而更好地理解并启发了水印过程的算法设计。在此优化公式的基础上,我们开发了一种在线对偶梯度上升水印算法,并证明了其在模型畸变和检测能力之间的渐近帕累托最优性。这样的结果保证了平均增加的绿色列表概率和因此明确的检测能力(与之前的结果相比)。此外,我们对水印问题中模型畸变度量的选择进行了系统讨论。我们证明了选择 KL 散度的合理性,并介绍了现有的 “无畸变” 和困惑度标准存在的问题。最后,我们通过对广泛数据集的对比算法进行了实证评估。
Mar, 2024
通过比较评估的灵活自然语言生成评估框架,本研究提出了一个简单的分析框架,用于评估特定水印设置引起的生成文本质量降低,以找到平衡性能和易检测性的最佳水印操作点。该方法应用于两个不同的摘要系统和一个翻译系统,实现了任务内和跨任务的模型分析。
Mar, 2024