Mar, 2024

通过强化学习学习为 LLM 生成的文本添加水印

TL;DR我们研究了如何给 LLM 输出添加水印,即将可算法检测到的信号嵌入 LLM 生成的文本以跟踪滥用。与目前主流方法不同,我们扩大了水印设计空间,将 LLM 调整阶段包括在水印流程中。通过强化学习提出了一种共同训练框架,迭代地 (1) 训练一个检测器来检测生成的带水印文本,(2) 调整 LLM 以生成容易被检测器检测到的文本,同时保持其正常效用。我们实证表明我们的水印更准确、更稳健、更适应新的攻击。此外,如果与对齐一起使用,额外引入的开销很低,只需要训练一个额外的奖励模型 (即我们的检测器)。我们希望我们的工作能够引起更多关于更广泛的水印设计的研究努力,不局限于与固定 LLM 一起工作。我们开源了代码:this https URL。