EmMark：用于嵌入式量化大型语言模型的强韧水印保护知识产权

Feb, 2024

EmMark：用于嵌入式量化大型语言模型的强韧水印保护知识产权

EmMark: Robust Watermarks for IP Protection of Embedded Quantized Large Language Models

Ruisi Zhang, Farinaz Koushanfar

TL;DREmMark 是一种保护资源受限边缘设备上嵌入式大型语言模型的知识产权的新型水印框架，通过查询水印模型权重和匹配插入的签名来验证所有者身份，通过选择策略性的水印权重参数，在保持模型质量的同时确保稳健性。通过对 OPT 和 LLaMA-2 系列模型的广泛评估，EmMark 展示了其保真度，在保持模型性能的情况下实现了 100% 的水印提取成功率，并展示了对水印移除和伪造攻击的抵抗能力。

Abstract

This paper introduces EmMark,a novel watermarking framework for protecting the intellectual property (IP) of embedded large language models

watermarking framework intellectual property language models authentication robustness

发现论文，激发创造

PostMark: 大型语言模型的稳健黑盒水印

我们开发了 PostMark，这是一种模块化的事后水印程序，可以在解码过程完成后将一组依赖于输入的词语插入到文本中，而无需访问对数。与现有的水印方法相比，PostMark 对释词攻击更加鲁棒，并通过自动和人工评估来评估其对文本质量的影响，突出了质量和抗释词性之间的权衡。

Jun, 2024

大型语言模型的水印

本研究提出了一种基于水印技术的保护私有语言模型的框架，通过嵌入可被算法识别但人类无法察觉的信号保证模型输出的安全性，并利用解释性 p 值的统计学方法检测水印的敏感性。测试结果表明本方法对于 Open Pretrained Transformer 等大型语言模型的检测效果良好，能够提升模型的鲁棒性和安全性。

Jan, 2023

REMARK-LLM: 生成大型语言模型的鲁棒高效水印框架

REMARK-LLM 是一种高效、稳健的水印嵌入框架，专为大型语言模型（LLMs）生成的文本而设计，采用学习基础的消息编码模块将二进制签名融入 LLM 生成的文本中，并利用重参数化模块将编码消息的密集分布转换为水印文本标记的稀疏分布，同时引入优化的束搜索算法确保生成内容的一致性和完整性，经过广泛的评估验证其在插入水印信息方面优于之前的方法，并且对于多种水印检测和移除攻击表现出更好的鲁棒性。

Oct, 2023

标记我的言辞：分析和评估语言模型水印

在大型语言模型的能力与对其滥用的担忧日益增长的背景下，对机器生成的文本与人类作者的内容进行区分的能力变得重要。本研究侧重于文本水印技术而非图像水印，并提出了一个全面的评估框架，包括不同任务及实际攻击的水印技术基准。我们关注三个主要指标：质量、大小（例如，检测水印所需的标记数）和防篡改性。目前的水印技术已足够用于部署，但我们认为水印的不可辨认性要求过高；略微修改逻辑分布的方案在生成质量上胜过不可辨认的对应方案且无明显质量损失。我们公开发布我们的基准测试。

Dec, 2023

DiPmark: 一种隐蔽、高效和韧性的大型语言模型水印

我们的研究扩展和完善了现有的水印技术框架，强调了分布保持水印的重要性。与当前的策略相反，我们提出的 DiPmark 在水印过程中保持原始令牌分布（隐秘性），能够在没有访问语言模型 API 或权重的情况下被检测到（高效性），而且对于令牌的中等变化具有鲁棒性。通过结合一种新的重新加权策略和基于上下文分配唯一的独立同分布密码的哈希函数，我们实现了这一目标。我们的方法的实证基准表明了其隐秘性、高效性和鲁棒性，使其成为对数据质量保持要求非常高的水印任务的强大解决方案。

Oct, 2023

使用权重量化对 LLMs 添加数字水印

这篇论文提出了一种新颖的水印策略，通过在大型语言模型的量化过程中植入水印来保护模型权重，以避免恶意使用违反开源大型语言模型的许可证。该水印只在使用 fp32 模式的模型中起作用，并在将模型量化为 int8 时保持隐藏，使用户只能推理模型而无法进一步对模型进行监督微调。我们成功地将水印嵌入开源大型语言模型的权重中，包括 GPT-Neo 和 LLaMA。希望我们提出的方法能够为保护大型语言模型权重在大型语言模型应用时提供潜在方向。

Oct, 2023

大型语言模型的增强可检测性和语义一致性的特定记号水印

利用多目标优化方法实现识别性与语义完整性，我们提出了一种在大型语言模型生成的文本中嵌入水印的新方法。实验证明，我们的方法在提高大型语言模型生成文本的可识别性的同时保持其语义连贯性方面优于当前的水印技术。

Feb, 2024

大型语言模型的语义不变鲁棒水印

我们提出了一种语义不变的大型语言模型水印方法，该方法在保证攻击鲁棒性和安全鲁棒性的基础上，通过利用另一个嵌入式大型语言模型生成语义嵌入，将其转化为水印逻辑。我们的实验证明了该方法在语义不变的设置下具有很强的攻击鲁棒性，并且水印具有充分的安全鲁棒性。

Oct, 2023

可学习的语言水印：对大型语言模型的模型提取攻击进行追踪

在快速发展的人工智能领域中，保护大型语言模型（LLMs）的知识产权变得越来越关键。我们提出了一种新颖的方法，在 LLMs 中嵌入可学习的语言水印，以追踪和防止模型提取攻击。我们的方法通过向令牌频率分布中引入可控噪声来微妙地修改 LLM 的输出分布，嵌入可统计辨识的可控水印。我们利用统计假设检验和信息理论，特别关注库尔巴克 - 莱布勒散度，有效区分原始分布和修改分布。我们的水印方法在鲁棒性和输出质量之间达到了微妙的平衡，保持了较低的误报率和漏报率，并且保留了 LLM 的原始性能。

Apr, 2024

令人尴尬地简单文本水印

Easymark 是一种简单且有效的文本水印方法，可以在不改变文本意义的情况下注入水印，并能高效可靠地检测是否由采用 Easymark 的系统生成的文本，实验证明 Easymark 在检测准确性和 BLEU 分数方面优于现有的文本水印方法。

Oct, 2023