大型语言模型的语义不变鲁棒水印

Oct, 2023

大型语言模型的语义不变鲁棒水印

A Semantic Invariant Robust Watermark for Large Language Models

Aiwei Liu, Leyi Pan, Xuming Hu, Shiao Meng, Lijie Wen

TL;DR我们提出了一种语义不变的大型语言模型水印方法，该方法在保证攻击鲁棒性和安全鲁棒性的基础上，通过利用另一个嵌入式大型语言模型生成语义嵌入，将其转化为水印逻辑。我们的实验证明了该方法在语义不变的设置下具有很强的攻击鲁棒性，并且水印具有充分的安全鲁棒性。

Abstract

watermark algorithms for large language models (LLMs) have achieved extremely high accuracy in detecting text generated by LLMs. Such algorithms typically involve adding extra watermark logits to the LLM's logits

watermark algorithms large language models attack robustness security robustness semantic invariant watermarking

发现论文，激发创造

大型语言模型的增强可检测性和语义一致性的特定记号水印

利用多目标优化方法实现识别性与语义完整性，我们提出了一种在大型语言模型生成的文本中嵌入水印的新方法。实验证明，我们的方法在提高大型语言模型生成文本的可识别性的同时保持其语义连贯性方面优于当前的水印技术。

Feb, 2024

大型语言模型的自适应文本水印

该论文提出了一种自适应水印策略来解决大语言模型生成高质量水印文本并保持强大安全性、稳健性以及在没有先验知识的情况下检测水印的能力的问题。

Jan, 2024

可学习的语言水印：对大型语言模型的模型提取攻击进行追踪

在快速发展的人工智能领域中，保护大型语言模型（LLMs）的知识产权变得越来越关键。我们提出了一种新颖的方法，在 LLMs 中嵌入可学习的语言水印，以追踪和防止模型提取攻击。我们的方法通过向令牌频率分布中引入可控噪声来微妙地修改 LLM 的输出分布，嵌入可统计辨识的可控水印。我们利用统计假设检验和信息理论，特别关注库尔巴克 - 莱布勒散度，有效区分原始分布和修改分布。我们的水印方法在鲁棒性和输出质量之间达到了微妙的平衡，保持了较低的误报率和漏报率，并且保留了 LLM 的原始性能。

Apr, 2024

大规模语言模型的文体水印

提出了一种新的方法来生成文本水印，通过策略性地改变生成过程中的令牌概率，利用语言学特征（如风格学）对大型语言模型（LLMs）进行参数化，以提高鲁棒性和应对传统攻击。

May, 2024

大型语言模型的水印

本研究提出了一种基于水印技术的保护私有语言模型的框架，通过嵌入可被算法识别但人类无法察觉的信号保证模型输出的安全性，并利用解释性 p 值的统计学方法检测水印的敏感性。测试结果表明本方法对于 Open Pretrained Transformer 等大型语言模型的检测效果良好，能够提升模型的鲁棒性和安全性。

Jan, 2023

利用混合整数规划进行大型语言模型水印窃取

大型语言模型水印方案及其鲁棒性研究

May, 2024

基于不变特征的自然语言鲁棒水印技术

本文研究一种基于自然语言的水印系统，旨在通过嵌入足够的信息和提取不变特征以提高其负载能力和鲁棒性，进而提高水印系统的版权保护能力。通过系统分析提出了一种抗干扰的填充模型，并建立了一个对比实验，结果表明该方法相较于之前的方法鲁棒性平均提高了百分之十六点八。

May, 2023

通过词重要性评分提高带水印的大型语言模型的生成质量

使用重要性评分的水印语言模型提高生成的文本质量，并提出三种预测重要性评分的方法。

Nov, 2023

PostMark: 大型语言模型的稳健黑盒水印

我们开发了 PostMark，这是一种模块化的事后水印程序，可以在解码过程完成后将一组依赖于输入的词语插入到文本中，而无需访问对数。与现有的水印方法相比，PostMark 对释词攻击更加鲁棒，并通过自动和人工评估来评估其对文本质量的影响，突出了质量和抗释词性之间的权衡。

Jun, 2024

利用其优势攻击 LLM 水印

通过对现有 LLM 水印系统的攻击研究，提出了一套实用准则，用于生成和检测 LLM 水印，旨在解决水印系统在保留质量、鲁棒性和公共检测 API 等方面所面临的各种攻击问题。

Feb, 2024