关于语言模型水印可学习性的研究
本文探讨使用不同的检测方法来对水印进行可靠的鉴别,并研究机器生成文本的大量观察对于水印的鉴别是否可靠,最终表明水印技术是一项可靠的解决方案,尤其是在样本复杂度越高时,水印证据会逐渐累积,并最终被检测出来。
Jun, 2023
在快速发展的人工智能领域中,保护大型语言模型(LLMs)的知识产权变得越来越关键。我们提出了一种新颖的方法,在 LLMs 中嵌入可学习的语言水印,以追踪和防止模型提取攻击。我们的方法通过向令牌频率分布中引入可控噪声来微妙地修改 LLM 的输出分布,嵌入可统计辨识的可控水印。我们利用统计假设检验和信息理论,特别关注库尔巴克 - 莱布勒散度,有效区分原始分布和修改分布。我们的水印方法在鲁棒性和输出质量之间达到了微妙的平衡,保持了较低的误报率和漏报率,并且保留了 LLM 的原始性能。
Apr, 2024
本研究提出了一种基于水印技术的保护私有语言模型的框架,通过嵌入可被算法识别但人类无法察觉的信号保证模型输出的安全性,并利用解释性 p 值的统计学方法检测水印的敏感性。测试结果表明本方法对于 Open Pretrained Transformer 等大型语言模型的检测效果良好,能够提升模型的鲁棒性和安全性。
Jan, 2023
本文章研究如何对大型语言模型进行不可检测的数字水印嵌入,采用密码学中的单向函数进行构建,使得即使用户能够适应性查询,也难以区分带水印的输出和原始模型的输出,从而保证文本质量。
May, 2023
评估了在文本分类、摘要生成、翻译等任务中,嵌入水印对大语言模型的性能的影响,并发现水印对于多项选择题和短句生成基本没有影响,但对于摘要生成和翻译任务性能下降了 15-20%。这些发现凸显了用户在使用带有水印模型时应该意识到的权衡,并指出未来研究可能改善现有的权衡。
Nov, 2023
防止语言模型误用的关键在于检测其生成的文本,此文介绍了一种基于水印的白盒 LLMs 方法,以及为黑盒 LLMs 开发的水印框架,实现了自主注入水印以避免在 API 下载应用时因选择黑盒 LLMs 而导致不能使用水印的问题。
May, 2023
在大型语言模型的能力与对其滥用的担忧日益增长的背景下,对机器生成的文本与人类作者的内容进行区分的能力变得重要。本研究侧重于文本水印技术而非图像水印,并提出了一个全面的评估框架,包括不同任务及实际攻击的水印技术基准。我们关注三个主要指标:质量、大小(例如,检测水印所需的标记数)和防篡改性。目前的水印技术已足够用于部署,但我们认为水印的不可辨认性要求过高;略微修改逻辑分布的方案在生成质量上胜过不可辨认的对应方案且无明显质量损失。我们公开发布我们的基准测试。
Dec, 2023
通过文本水印技术,在生成的文本中嵌入不可见但可检测的模式,有助于追踪和验证文本来源,从而防止滥用和盗版。该综述对当前的文本水印技术进行了全面总结,包括不同技术的概述和比较、算法的评估方法以及可能的应用领域,以帮助研究人员全面了解文本水印技术、促进进一步的发展。
Dec, 2023
调查了 LLM 生成的文本的辐射性,即是否可能检测到这种输入被用作训练数据;与成员推断等传统方法相比,我们发现水印训练数据留下的痕迹更容易检测且更可靠;我们将污染程度与水印的鲁棒性、在训练集中所占比例和微调过程联系起来;我们特别证明,即使仅有 5%的训练文本带有水印,也能以高置信度(p 值 < 1e-5)检测到在带有水印的合成指令上进行训练;因此,最初设计用于检测机器生成文本的 LLM 水印技术可以轻松识别是否使用带有水印的 LLM 的输出来进行微调。
Feb, 2024