一种新的评估度量捕捉由 LLM 数字水印引起的质量降低
通过比较评估的灵活自然语言生成评估框架,本研究提出了一个简单的分析框架,用于评估特定水印设置引起的生成文本质量降低,以找到平衡性能和易检测性的最佳水印操作点。该方法应用于两个不同的摘要系统和一个翻译系统,实现了任务内和跨任务的模型分析。
Mar, 2024
在大型语言模型的能力与对其滥用的担忧日益增长的背景下,对机器生成的文本与人类作者的内容进行区分的能力变得重要。本研究侧重于文本水印技术而非图像水印,并提出了一个全面的评估框架,包括不同任务及实际攻击的水印技术基准。我们关注三个主要指标:质量、大小(例如,检测水印所需的标记数)和防篡改性。目前的水印技术已足够用于部署,但我们认为水印的不可辨认性要求过高;略微修改逻辑分布的方案在生成质量上胜过不可辨认的对应方案且无明显质量损失。我们公开发布我们的基准测试。
Dec, 2023
评估了在文本分类、摘要生成、翻译等任务中,嵌入水印对大语言模型的性能的影响,并发现水印对于多项选择题和短句生成基本没有影响,但对于摘要生成和翻译任务性能下降了 15-20%。这些发现凸显了用户在使用带有水印模型时应该意识到的权衡,并指出未来研究可能改善现有的权衡。
Nov, 2023
为了解决大型语言模型的滥用问题,该研究开发了水印算法,通过限制生成过程以留下不可见痕迹进行水印检测。本文引入了 WaterBench,第一个针对大型语言模型水印的全面基准测试,通过设计三个关键要素进行了综合评估,包括基准测试过程、任务选择和评估指标,观察到当前方法在保持生成质量方面存在共同困难。
Nov, 2023
本文探讨使用不同的检测方法来对水印进行可靠的鉴别,并研究机器生成文本的大量观察对于水印的鉴别是否可靠,最终表明水印技术是一项可靠的解决方案,尤其是在样本复杂度越高时,水印证据会逐渐累积,并最终被检测出来。
Jun, 2023
在快速发展的人工智能领域中,保护大型语言模型(LLMs)的知识产权变得越来越关键。我们提出了一种新颖的方法,在 LLMs 中嵌入可学习的语言水印,以追踪和防止模型提取攻击。我们的方法通过向令牌频率分布中引入可控噪声来微妙地修改 LLM 的输出分布,嵌入可统计辨识的可控水印。我们利用统计假设检验和信息理论,特别关注库尔巴克 - 莱布勒散度,有效区分原始分布和修改分布。我们的水印方法在鲁棒性和输出质量之间达到了微妙的平衡,保持了较低的误报率和漏报率,并且保留了 LLM 的原始性能。
Apr, 2024
通过文本水印技术,在生成的文本中嵌入不可见但可检测的模式,有助于追踪和验证文本来源,从而防止滥用和盗版。该综述对当前的文本水印技术进行了全面总结,包括不同技术的概述和比较、算法的评估方法以及可能的应用领域,以帮助研究人员全面了解文本水印技术、促进进一步的发展。
Dec, 2023
利用多目标优化方法实现识别性与语义完整性,我们提出了一种在大型语言模型生成的文本中嵌入水印的新方法。实验证明,我们的方法在提高大型语言模型生成文本的可识别性的同时保持其语义连贯性方面优于当前的水印技术。
Feb, 2024
自 2022 年 11 月引入 ChatGPT 以来,将几乎不可察觉的统计信号嵌入到大型语言模型生成的文本中(也称为水印),已被用作对比较于人类编写的文本的 LLM 生成文本的可证明检测的合理方法。本文提出了一种通用且灵活的框架,用于对水印的统计效率进行推理和设计强大的检测规则。通过受到水印检测的假设检验公式的启发,我们的框架首先选择文本的中心统计量和一个 LLM 提供给验证者的秘密密钥,以便控制误报率(错误地将人类编写的文本误判为 LLM 生成的文本)。接下来,该框架允许通过获得渐近虚检率(错误地将 LLM 生成的文本错误地分类为人类编写的文本)的闭式表达式来评估水印检测规则的效力。我们的框架进一步将确定最优检测规则的问题简化为解决最小极大化优化方案。我们将这一框架应用于两个代表性水印 —— 其中一个已在 OpenAI 内部实施 —— 并得出了一些可对实施水印标准起到指导作用的结果。特别地,在我们的框架下,我们推导出了这些水印的最优检测规则。通过数值实验,证明了这些理论推导出的检测规则在竞争中有时更有效且具有更高的功率。
Apr, 2024