遗失于重叠中：探索 LLMs 中的水印碰撞

Mar, 2024

遗失于重叠中：探索 LLMs 中的水印碰撞

Lost in Overlap: Exploring Watermark Collision in LLMs

Yiyang Luo, Ke Lin, Chao Gu

TL;DR该研究聚焦于大型语言模型中的水印碰撞问题，证明水印碰撞对上游和下游水印算法的检测性能构成威胁。

Abstract

The proliferation of large language models (LLMs) in generating content raises concerns about text copyright. watermarking methods, particularly

large language models watermarking methods logit-based approaches watermark collision detection performance

发现论文，激发创造

利用混合整数规划进行大型语言模型水印窃取

大型语言模型水印方案及其鲁棒性研究

May, 2024

利用其优势攻击 LLM 水印

通过对现有 LLM 水印系统的攻击研究，提出了一套实用准则，用于生成和检测 LLM 水印，旨在解决水印系统在保留质量、鲁棒性和公共检测 API 等方面所面临的各种攻击问题。

Feb, 2024

关于大型语言模型中水印可靠性的研究

本文探讨使用不同的检测方法来对水印进行可靠的鉴别，并研究机器生成文本的大量观察对于水印的鉴别是否可靠，最终表明水印技术是一项可靠的解决方案，尤其是在样本复杂度越高时，水印证据会逐渐累积，并最终被检测出来。

Jun, 2023

可学习的语言水印：对大型语言模型的模型提取攻击进行追踪

在快速发展的人工智能领域中，保护大型语言模型（LLMs）的知识产权变得越来越关键。我们提出了一种新颖的方法，在 LLMs 中嵌入可学习的语言水印，以追踪和防止模型提取攻击。我们的方法通过向令牌频率分布中引入可控噪声来微妙地修改 LLM 的输出分布，嵌入可统计辨识的可控水印。我们利用统计假设检验和信息理论，特别关注库尔巴克 - 莱布勒散度，有效区分原始分布和修改分布。我们的水印方法在鲁棒性和输出质量之间达到了微妙的平衡，保持了较低的误报率和漏报率，并且保留了 LLM 的原始性能。

Apr, 2024

大语言模型时代的文本水印调查

通过文本水印技术，在生成的文本中嵌入不可见但可检测的模式，有助于追踪和验证文本来源，从而防止滥用和盗版。该综述对当前的文本水印技术进行了全面总结，包括不同技术的概述和比较、算法的评估方法以及可能的应用领域，以帮助研究人员全面了解文本水印技术、促进进一步的发展。

Dec, 2023

大型语言模型的水印优化

使用多目标优化问题的系统方法介绍了大规模语言模型、水印、生成型语言模型、可识别性和多目标优化问题相关的本研究领域。

Dec, 2023

辨识带水印的大型语言模型的基准

通过分析输出 token 和 logit 的分布，提出了一套基线算法来识别广泛使用的水印方案在大型语言模型中的存在和使用，并考虑了各种情况下的鉴别度和识别机制的权衡。同时，正式阐明了在大型语言模型和水印检测方面的特定问题。

May, 2023

大型语言模型的增强可检测性和语义一致性的特定记号水印

利用多目标优化方法实现识别性与语义完整性，我们提出了一种在大型语言模型生成的文本中嵌入水印的新方法。实验证明，我们的方法在提高大型语言模型生成文本的可识别性的同时保持其语义连贯性方面优于当前的水印技术。

Feb, 2024

大型语言模型水印的性能权衡

评估了在文本分类、摘要生成、翻译等任务中，嵌入水印对大语言模型的性能的影响，并发现水印对于多项选择题和短句生成基本没有影响，但对于摘要生成和翻译任务性能下降了 15-20%。这些发现凸显了用户在使用带有水印模型时应该意识到的权衡，并指出未来研究可能改善现有的权衡。

Nov, 2023

一种新的评估度量捕捉由 LLM 数字水印引起的质量降低

评估大语言模型水印技术的新方法，并揭示了当前水印方法的可检测性、对文本质量的影响以及评估水印质量的重要性。

Dec, 2023