PostMark: 大型语言模型的稳健黑盒水印

Jun, 2024

PostMark: 大型语言模型的稳健黑盒水印

PostMark: A Robust Blackbox Watermark for Large Language Models

Yapei Chang, Kalpesh Krishna, Amir Houmansadr, John Wieting, Mohit Iyyer

TL;DR我们开发了 PostMark，这是一种模块化的事后水印程序，可以在解码过程完成后将一组依赖于输入的词语插入到文本中，而无需访问对数。与现有的水印方法相比，PostMark 对释词攻击更加鲁棒，并通过自动和人工评估来评估其对文本质量的影响，突出了质量和抗释词性之间的权衡。

Abstract

The most effective techniques to detect LLM-generated text rely on inserting a detectable signature -- or watermark -- during the model's decoding process. Most existing watermarking methods require access to the underlying LLM's logits, which LLM API providers are loath to share due t

watermarking methods postmark paraphrasing attacks text quality trade-off

发现论文，激发创造

黑盒语言模型生成文本的水印技术

防止语言模型误用的关键在于检测其生成的文本，此文介绍了一种基于水印的白盒 LLMs 方法，以及为黑盒 LLMs 开发的水印框架，实现了自主注入水印以避免在 API 下载应用时因选择黑盒 LLMs 而导致不能使用水印的问题。

May, 2023

大型语言模型的增强可检测性和语义一致性的特定记号水印

利用多目标优化方法实现识别性与语义完整性，我们提出了一种在大型语言模型生成的文本中嵌入水印的新方法。实验证明，我们的方法在提高大型语言模型生成文本的可识别性的同时保持其语义连贯性方面优于当前的水印技术。

Feb, 2024

EmMark：用于嵌入式量化大型语言模型的强韧水印保护知识产权

EmMark 是一种保护资源受限边缘设备上嵌入式大型语言模型的知识产权的新型水印框架，通过查询水印模型权重和匹配插入的签名来验证所有者身份，通过选择策略性的水印权重参数，在保持模型质量的同时确保稳健性。通过对 OPT 和 LLaMA-2 系列模型的广泛评估，EmMark 展示了其保真度，在保持模型性能的情况下实现了 100% 的水印提取成功率，并展示了对水印移除和伪造攻击的抵抗能力。

Feb, 2024

大型语言模型的语义不变鲁棒水印

我们提出了一种语义不变的大型语言模型水印方法，该方法在保证攻击鲁棒性和安全鲁棒性的基础上，通过利用另一个嵌入式大型语言模型生成语义嵌入，将其转化为水印逻辑。我们的实验证明了该方法在语义不变的设置下具有很强的攻击鲁棒性，并且水印具有充分的安全鲁棒性。

Oct, 2023

语言模型水印的黑盒检测

水印技术被视为一种有效的方法来检测 LLM 生成的文本，此研究针对三种最流行的水印方案家族开发了严格的统计测试，使用有限数量的黑盒查询来检测它们的存在，并发现当前的水印方案比之前认为的更容易被检测到。

May, 2024

大型语言模型的水印

本研究提出了一种基于水印技术的保护私有语言模型的框架，通过嵌入可被算法识别但人类无法察觉的信号保证模型输出的安全性，并利用解释性 p 值的统计学方法检测水印的敏感性。测试结果表明本方法对于 Open Pretrained Transformer 等大型语言模型的检测效果良好，能够提升模型的鲁棒性和安全性。

Jan, 2023

MarkLLM：一个用于 LLM 数字水印的开源工具包

LLM 水印技术已成为减轻大型语言模型潜在滥用的关键之一，而 MarkLLM 作为一个开源工具包，提供了统一而可扩展的框架来实现 LLM 水印算法，并通过用户友好的界面确保易于使用，同时支持自动可视化算法机制，以及 12 个工具和两种类型的自动化评估流程，旨在支持研究人员并促进公众对 LLM 水印技术的理解和参与，推动研究和应用的进一步发展。

May, 2024

标记我的言辞：分析和评估语言模型水印

在大型语言模型的能力与对其滥用的担忧日益增长的背景下，对机器生成的文本与人类作者的内容进行区分的能力变得重要。本研究侧重于文本水印技术而非图像水印，并提出了一个全面的评估框架，包括不同任务及实际攻击的水印技术基准。我们关注三个主要指标：质量、大小（例如，检测水印所需的标记数）和防篡改性。目前的水印技术已足够用于部署，但我们认为水印的不可辨认性要求过高；略微修改逻辑分布的方案在生成质量上胜过不可辨认的对应方案且无明显质量损失。我们公开发布我们的基准测试。

Dec, 2023

REMARK-LLM: 生成大型语言模型的鲁棒高效水印框架

REMARK-LLM 是一种高效、稳健的水印嵌入框架，专为大型语言模型（LLMs）生成的文本而设计，采用学习基础的消息编码模块将二进制签名融入 LLM 生成的文本中，并利用重参数化模块将编码消息的密集分布转换为水印文本标记的稀疏分布，同时引入优化的束搜索算法确保生成内容的一致性和完整性，经过广泛的评估验证其在插入水印信息方面优于之前的方法，并且对于多种水印检测和移除攻击表现出更好的鲁棒性。

Oct, 2023

DeepTextMark：基于深度学习的文本水印技术，应用于检测大规模语言模型生成的文本

本研究提出了 DeepTextMark，是一个基于深度学习技术的文本水印方法，能够实现对文本来源的高质量检测，具有盲性、鲁棒性、隐蔽性和可靠性，是一种用于文本生成系统的附加系统。

May, 2023