语言模型水印的黑盒检测
防止语言模型误用的关键在于检测其生成的文本,此文介绍了一种基于水印的白盒 LLMs 方法,以及为黑盒 LLMs 开发的水印框架,实现了自主注入水印以避免在 API 下载应用时因选择黑盒 LLMs 而导致不能使用水印的问题。
May, 2023
我们构建了第一个能在语言模型中具备公开可检测性或验证性的可证明水印方案:我们使用私钥进行水印嵌入,使用公钥进行水印检测。我们的方案是第一个不在生成的文本中嵌入统计信号的水印方案。相反,我们直接使用一种拒绝采样的方式嵌入可公开验证的密码学签名。我们展示了我们的构建满足强形式的安全保证,并保留了在私钥水印设置方案中发现的许多可取性质。特别地,我们的水印方案保持了无失真性和模型不可知性。我们实现了我们的方案,并对在 7B 参数范围内的开放模型进行了实证测量。我们的实验表明,我们的水印方案在满足我们的形式性要求的同时保持了文本质量。
Oct, 2023
自 2022 年 11 月引入 ChatGPT 以来,将几乎不可察觉的统计信号嵌入到大型语言模型生成的文本中(也称为水印),已被用作对比较于人类编写的文本的 LLM 生成文本的可证明检测的合理方法。本文提出了一种通用且灵活的框架,用于对水印的统计效率进行推理和设计强大的检测规则。通过受到水印检测的假设检验公式的启发,我们的框架首先选择文本的中心统计量和一个 LLM 提供给验证者的秘密密钥,以便控制误报率(错误地将人类编写的文本误判为 LLM 生成的文本)。接下来,该框架允许通过获得渐近虚检率(错误地将 LLM 生成的文本错误地分类为人类编写的文本)的闭式表达式来评估水印检测规则的效力。我们的框架进一步将确定最优检测规则的问题简化为解决最小极大化优化方案。我们将这一框架应用于两个代表性水印 —— 其中一个已在 OpenAI 内部实施 —— 并得出了一些可对实施水印标准起到指导作用的结果。特别地,在我们的框架下,我们推导出了这些水印的最优检测规则。通过数值实验,证明了这些理论推导出的检测规则在竞争中有时更有效且具有更高的功率。
Apr, 2024
本文章研究如何对大型语言模型进行不可检测的数字水印嵌入,采用密码学中的单向函数进行构建,使得即使用户能够适应性查询,也难以区分带水印的输出和原始模型的输出,从而保证文本质量。
May, 2023
本研究提出了一种基于水印技术的保护私有语言模型的框架,通过嵌入可被算法识别但人类无法察觉的信号保证模型输出的安全性,并利用解释性 p 值的统计学方法检测水印的敏感性。测试结果表明本方法对于 Open Pretrained Transformer 等大型语言模型的检测效果良好,能够提升模型的鲁棒性和安全性。
Jan, 2023
通过分析输出 token 和 logit 的分布,提出了一套基线算法来识别广泛使用的水印方案在大型语言模型中的存在和使用,并考虑了各种情况下的鉴别度和识别机制的权衡。同时,正式阐明了在大型语言模型和水印检测方面的特定问题。
May, 2023
本文探讨使用不同的检测方法来对水印进行可靠的鉴别,并研究机器生成文本的大量观察对于水印的鉴别是否可靠,最终表明水印技术是一项可靠的解决方案,尤其是在样本复杂度越高时,水印证据会逐渐累积,并最终被检测出来。
Jun, 2023
通过文本水印技术,在生成的文本中嵌入不可见但可检测的模式,有助于追踪和验证文本来源,从而防止滥用和盗版。该综述对当前的文本水印技术进行了全面总结,包括不同技术的概述和比较、算法的评估方法以及可能的应用领域,以帮助研究人员全面了解文本水印技术、促进进一步的发展。
Dec, 2023
为了解决大型语言模型的滥用问题,该研究开发了水印算法,通过限制生成过程以留下不可见痕迹进行水印检测。本文引入了 WaterBench,第一个针对大型语言模型水印的全面基准测试,通过设计三个关键要素进行了综合评估,包括基准测试过程、任务选择和评估指标,观察到当前方法在保持生成质量方面存在共同困难。
Nov, 2023