Dec, 2023

标记我的言辞:分析和评估语言模型水印

TL;DR在大型语言模型的能力与对其滥用的担忧日益增长的背景下,对机器生成的文本与人类作者的内容进行区分的能力变得重要。本研究侧重于文本水印技术而非图像水印,并提出了一个全面的评估框架,包括不同任务及实际攻击的水印技术基准。我们关注三个主要指标:质量、大小(例如,检测水印所需的标记数)和防篡改性。目前的水印技术已足够用于部署,但我们认为水印的不可辨认性要求过高;略微修改逻辑分布的方案在生成质量上胜过不可辨认的对应方案且无明显质量损失。我们公开发布我们的基准测试。