机器生成语言中水印的伦理需求
提出了 NS-Watermark 方法用于在生成的文本中插入水印,以区分由大型语言模型还是人类编写的文本。该方法通过约束优化问题来生成更自然的文本,并在机器翻译任务中相较于现有的水印方法取得高达 30 BLEU 分数的性能优势。
Oct, 2023
本文探讨使用不同的检测方法来对水印进行可靠的鉴别,并研究机器生成文本的大量观察对于水印的鉴别是否可靠,最终表明水印技术是一项可靠的解决方案,尤其是在样本复杂度越高时,水印证据会逐渐累积,并最终被检测出来。
Jun, 2023
在大型语言模型的能力与对其滥用的担忧日益增长的背景下,对机器生成的文本与人类作者的内容进行区分的能力变得重要。本研究侧重于文本水印技术而非图像水印,并提出了一个全面的评估框架,包括不同任务及实际攻击的水印技术基准。我们关注三个主要指标:质量、大小(例如,检测水印所需的标记数)和防篡改性。目前的水印技术已足够用于部署,但我们认为水印的不可辨认性要求过高;略微修改逻辑分布的方案在生成质量上胜过不可辨认的对应方案且无明显质量损失。我们公开发布我们的基准测试。
Dec, 2023
本研究提出了一种基于水印技术的保护私有语言模型的框架,通过嵌入可被算法识别但人类无法察觉的信号保证模型输出的安全性,并利用解释性 p 值的统计学方法检测水印的敏感性。测试结果表明本方法对于 Open Pretrained Transformer 等大型语言模型的检测效果良好,能够提升模型的鲁棒性和安全性。
Jan, 2023
本文章研究如何对大型语言模型进行不可检测的数字水印嵌入,采用密码学中的单向函数进行构建,使得即使用户能够适应性查询,也难以区分带水印的输出和原始模型的输出,从而保证文本质量。
May, 2023
提出了一种新的水印方法来检测机器生成的文本,并通过与一种先进的水印方法进行了比较,证明了该方法在在保持文本质量的同时,能够有效地区分带水印和不带水印的文本,并取得了较高的检测率。
Nov, 2023
利用多目标优化方法实现识别性与语义完整性,我们提出了一种在大型语言模型生成的文本中嵌入水印的新方法。实验证明,我们的方法在提高大型语言模型生成文本的可识别性的同时保持其语义连贯性方面优于当前的水印技术。
Feb, 2024
本文发现现有的基于大型语言模型的文字水印和机器生成文字检测方法不能很好地应用于代码生成任务,因此提出了 SWEET 的新水印方法,其在标记的选择方面较先前方法具有更高的熵门限,实验表明我们的水印代码比先前状态下的大型语言模型水印方法生成的代码具有更好的质量,并凭借该方法在机器生成代码检测任务中表现优异。
May, 2023
通过在机器生成的文本中引入水印并利用此信息进行检测,以缓解语言模型潜在风险的方法,以及提出的基于语义感知的水印算法,在保持检测能力的同时,在各种文本生成模型中取得了显著的改进,包括 BART 和 Flan-T5,在摘要生成和数据到文本生成等任务中。
Jul, 2023
为了解决检测人工智能生成文本的问题,本研究提出了一种鲁棒且高质量的方案,名为 GPTWatermark,通过水印的方式确定文本的来源,并在大规模语言模型中展示了其稳定性和高检测准确性。
Jun, 2023