AI 自动生成文本的可证明鲁棒水印
本文探讨使用不同的检测方法来对水印进行可靠的鉴别,并研究机器生成文本的大量观察对于水印的鉴别是否可靠,最终表明水印技术是一项可靠的解决方案,尤其是在样本复杂度越高时,水印证据会逐渐累积,并最终被检测出来。
Jun, 2023
通过在机器生成的文本中引入水印并利用此信息进行检测,以缓解语言模型潜在风险的方法,以及提出的基于语义感知的水印算法,在保持检测能力的同时,在各种文本生成模型中取得了显著的改进,包括 BART 和 Flan-T5,在摘要生成和数据到文本生成等任务中。
Jul, 2023
提出了一种新的水印方法来检测机器生成的文本,并通过与一种先进的水印方法进行了比较,证明了该方法在在保持文本质量的同时,能够有效地区分带水印和不带水印的文本,并取得了较高的检测率。
Nov, 2023
本研究提出了一种基于水印技术的保护私有语言模型的框架,通过嵌入可被算法识别但人类无法察觉的信号保证模型输出的安全性,并利用解释性 p 值的统计学方法检测水印的敏感性。测试结果表明本方法对于 Open Pretrained Transformer 等大型语言模型的检测效果良好,能够提升模型的鲁棒性和安全性。
Jan, 2023
自 2022 年 11 月引入 ChatGPT 以来,将几乎不可察觉的统计信号嵌入到大型语言模型生成的文本中(也称为水印),已被用作对比较于人类编写的文本的 LLM 生成文本的可证明检测的合理方法。本文提出了一种通用且灵活的框架,用于对水印的统计效率进行推理和设计强大的检测规则。通过受到水印检测的假设检验公式的启发,我们的框架首先选择文本的中心统计量和一个 LLM 提供给验证者的秘密密钥,以便控制误报率(错误地将人类编写的文本误判为 LLM 生成的文本)。接下来,该框架允许通过获得渐近虚检率(错误地将 LLM 生成的文本错误地分类为人类编写的文本)的闭式表达式来评估水印检测规则的效力。我们的框架进一步将确定最优检测规则的问题简化为解决最小极大化优化方案。我们将这一框架应用于两个代表性水印 —— 其中一个已在 OpenAI 内部实施 —— 并得出了一些可对实施水印标准起到指导作用的结果。特别地,在我们的框架下,我们推导出了这些水印的最优检测规则。通过数值实验,证明了这些理论推导出的检测规则在竞争中有时更有效且具有更高的功率。
Apr, 2024
我们提出了第一种私有水印算法,通过使用两个不同的神经网络进行水印生成和检测,扩展了当前的文本水印算法,而不是在两个阶段都使用相同的密钥,实现了高效准确地检测网络,并且对生成和检测速度影响小。
Jul, 2023
通过对现有 LLM 水印系统的攻击研究,提出了一套实用准则,用于生成和检测 LLM 水印,旨在解决水印系统在保留质量、鲁棒性和公共检测 API 等方面所面临的各种攻击问题。
Feb, 2024
我们提出了一种在自回归语言模型中种植水印的方法,这些水印在不改变一定最大生成预算下的文本分布的情况下对扰动具有鲁棒性。我们通过使用随机水印密钥计算的随机数序列映射到语言模型的样本来生成带水印的文本。为了检测带水印的文本,任何知道密钥的一方可以将文本与随机数序列对齐。我们用两种采样方案来实例化我们的水印方法:逆变换采样和指数最小采样。我们将这些水印应用到三个语言模型(OPT-1.3B,LLaMA-7B 和 Alpaca-7B)上,以实验证明它们对各种释义攻击的统计功率和鲁棒性。值得注意的是,在 OPT-1.3B 和 LLaMA-7B 模型中,即使在通过随机编辑(即替换、插入或删除)破坏了 40-50% 的标记之后,我们仍然可以可靠地检测到带水印的文本(p≤0.01)35 个标记。对于 Alpaca-7B 模型,我们对典型用户指令的水印响应可行性进行了案例研究。由于响应的熵较低,检测更加困难:约 25% 的响应(中位长度约为 100 个标记)可以在 p≤0.01 的条件下检测到,而水印也对我们实施的某些自动释义攻击不太鲁棒。
Jul, 2023
通过文本水印技术,在生成的文本中嵌入不可见但可检测的模式,有助于追踪和验证文本来源,从而防止滥用和盗版。该综述对当前的文本水印技术进行了全面总结,包括不同技术的概述和比较、算法的评估方法以及可能的应用领域,以帮助研究人员全面了解文本水印技术、促进进一步的发展。
Dec, 2023