使用词汇水印保护语言生成 API 的知识产权

AAAIDec, 2021

使用词汇水印保护语言生成 API 的知识产权

Protecting Intellectual Property of Language Generation APIs with Lexical Watermark

Xuanli He, Qiongkai Xu, Lingjuan Lyu, Fangzhao Wu, Chenguang Wang

TL;DR通过对原始输出进行词汇修改，本论文提出了一种新颖的文本生成 API 水印方法，以此保护 NLG API 的知识产权，并在 p 值方面取得更好的可识别性能。

Abstract

Nowadays, due to the breakthrough in natural language generation (nlg), including machine translation, document summarization, image captioning, etc nlg models have been encapsulated in cloud →

nlg apis ip protection watermarking lexical modification

发现论文，激发创造

可学习的语言水印：对大型语言模型的模型提取攻击进行追踪

在快速发展的人工智能领域中，保护大型语言模型（LLMs）的知识产权变得越来越关键。我们提出了一种新颖的方法，在 LLMs 中嵌入可学习的语言水印，以追踪和防止模型提取攻击。我们的方法通过向令牌频率分布中引入可控噪声来微妙地修改 LLM 的输出分布，嵌入可统计辨识的可控水印。我们利用统计假设检验和信息理论，特别关注库尔巴克 - 莱布勒散度，有效区分原始分布和修改分布。我们的水印方法在鲁棒性和输出质量之间达到了微妙的平衡，保持了较低的误报率和漏报率，并且保留了 LLM 的原始性能。

Apr, 2024

大型语言模型的水印

本研究提出了一种基于水印技术的保护私有语言模型的框架，通过嵌入可被算法识别但人类无法察觉的信号保证模型输出的安全性，并利用解释性 p 值的统计学方法检测水印的敏感性。测试结果表明本方法对于 Open Pretrained Transformer 等大型语言模型的检测效果良好，能够提升模型的鲁棒性和安全性。

Jan, 2023

大语言模型时代的文本水印调查

通过文本水印技术，在生成的文本中嵌入不可见但可检测的模式，有助于追踪和验证文本来源，从而防止滥用和盗版。该综述对当前的文本水印技术进行了全面总结，包括不同技术的概述和比较、算法的评估方法以及可能的应用领域，以帮助研究人员全面了解文本水印技术、促进进一步的发展。

Dec, 2023

通过隐形水印保护语言生成模型

提出 GINSEW 方法以保护文本生成模型免受窃取，通过在目标令牌的解码步骤的概率向量中注入秘密信号，并在疑犯模型中检测秘密信息，GINSEW 可以有效地识别知识产权侵权的实例，表现出比之前的方法对抗去除水印攻击有 19 至 29 点的平均精度提升。

Feb, 2023

利用其优势攻击 LLM 水印

通过对现有 LLM 水印系统的攻击研究，提出了一套实用准则，用于生成和检测 LLM 水印，旨在解决水印系统在保留质量、鲁棒性和公共检测 API 等方面所面临的各种攻击问题。

Feb, 2024

WaterJudge：在为大语言模型加水印时实现质量检测与权衡

通过比较评估的灵活自然语言生成评估框架，本研究提出了一个简单的分析框架，用于评估特定水印设置引起的生成文本质量降低，以找到平衡性能和易检测性的最佳水印操作点。该方法应用于两个不同的摘要系统和一个翻译系统，实现了任务内和跨任务的模型分析。

Mar, 2024

黑盒语言模型生成文本的水印技术

防止语言模型误用的关键在于检测其生成的文本，此文介绍了一种基于水印的白盒 LLMs 方法，以及为黑盒 LLMs 开发的水印框架，实现了自主注入水印以避免在 API 下载应用时因选择黑盒 LLMs 而导致不能使用水印的问题。

May, 2023

DeepHider: 基于多任务学习的隐蔽 NLP 水印框架

本研究论文提出了基于深度模型超参数化和多任务学习理论的自然语言处理模型数字水印框架，该框架采用隐藏触发器并设计了一个新的辅助网络来提高数字水印模型的健壮性和安全性，成功验证了模型所有权以及良好的鲁棒性和安全性。

Aug, 2022

水印条件文本生成的人工智能检测：揭示挑战和语义感知水印解决方案

通过在机器生成的文本中引入水印并利用此信息进行检测，以缓解语言模型潜在风险的方法，以及提出的基于语义感知的水印算法，在保持检测能力的同时，在各种文本生成模型中取得了显著的改进，包括 BART 和 Flan-T5，在摘要生成和数据到文本生成等任务中。

Jul, 2023

通过上下文感知的词汇替换追溯文本来源

本文提出了一种基于上下文感知词汇替换的自然语言水印方案，该方案使用 BERT 来推荐 LS 候选词，并基于同步性和可替换性设计选择策略，结果表明该水印方案能够很好地保留原始句子的语义完整性，并且具有更好的可转换性。

Dec, 2021