在大型语言模型中隐藏文本：引入无条件强迫混淆

Jun, 2024

在大型语言模型中隐藏文本：引入无条件强迫混淆

Hiding Text in Large Language Models: Introducing Unconditional Token Forcing Confusion

Jakub Hoscilowicz, Pawel Popiolek, Jan Rudkowski, Jedrzej Bieniasz, Artur Janicki

TL;DR使用简单的微调技术，可以将隐藏的文本嵌入到大型语言模型中，而只有在触发特定查询时才会显现。这项工作表明通过微调将隐藏文本嵌入到语言模型中，虽然由于潜在触发器的巨大数量（任何字符或标记的序列都可以作为触发器）而看似安全，但仍然容易通过对语言模型输出解码过程的分析来提取其中的隐藏文本。

Abstract

With the help of simple fine-tuning, one can artificially embed hidden text into large language models (LLMs). This text is revealed only

fine-tuning hidden text large language models fingerprinting steganography

发现论文，激发创造

一段文字胜过数个令牌：LLM 的文字嵌入与关键令牌密切对齐

通过分析长序列模型的嵌入数据，我们发现其文本嵌入与关键标记是可以对齐的，并进一步通过调整首个主要成分，实现文本嵌入与关键标记的对齐。这一发现拥有广泛应用潜力，可用于稀疏检索方法的改进和模糊概念的理解。

Jun, 2024

通过隐式分类将令人印象深刻的 LMM 生成文本识别为令牌预测

本文介绍了一种新颖的方法，用于识别可能参与文本生成的大规模语言模型（LLMs）。我们采用了一种将分类任务重新构建为下一个标记预测任务的方法，并直接微调基本语言模型来执行此任务。我们使用 Text-to-Text Transfer Transformer（T5）模型作为实验的基础，并将我们的方法与利用隐藏状态进行分类的更直接方法进行了比较。评估结果显示了我们的方法在文本分类任务中的卓越性能，突出了其简单性和效率。此外，对我们模型提取的特征进行的可解释性研究揭示了其能够在没有显式分类器的情况下区分不同 LLMs 之间的独特写作风格。我们还收集了一个名为 OpenLLMText 的数据集，其中包含来自人类和 LLMs（包括 GPT3.5、PaLM、LLaMA 和 GPT2）的约 340k 个文本样本。

Nov, 2023

很抱歉，先生？您的语言模型正在泄露（信息）

使用加密方法在大型语言模型的回应中隐藏任意秘密负载，需要秘密密钥提取模型回应中的负载，负载不会影响生成文本的质量，扩展了 Christ、Gunn 和 Zamir（2023 年）引入的大型语言模型不可检测的水印方案。

Jan, 2024

在野外对微调语言模型进行指纹识别

研究社区正在积极开发检测给定文本是有机的还是合成的方法，本文则聚焦于探讨如何对精细调整的语言模型进行指纹识别以确定其来源，并通过实验结果表明，精细调整本身是确定合成文本来源的最有效方法。

Jun, 2021

大型语言模型留下指纹

通过分析 LLM 指纹，我们展示了即使是简单的分类器也能在训练领域内外的数据中实现非常强大的性能，从而有效区分人类生成的文本和机器生成的文本。

May, 2024

基于遮蔽语言建模的可逆文本数据隐藏通用框架

本文提出了一个基于掩蔽语言模型的通用框架，将秘密信息嵌入给定的覆盖文本中，嵌入的信息和原始覆盖文本可以从标记文本中完美地恢复。实验结果表明，所提出的方法具有良好的安全性和语义质量，可应用于许多领域，包括信息隐藏和自然语言处理。

Jun, 2022

大型语言模型的自适应文本水印

该论文提出了一种自适应水印策略来解决大语言模型生成高质量水印文本并保持强大安全性、稳健性以及在没有先验知识的情况下检测水印的能力的问题。

Jan, 2024

可学习的语言水印：对大型语言模型的模型提取攻击进行追踪

在快速发展的人工智能领域中，保护大型语言模型（LLMs）的知识产权变得越来越关键。我们提出了一种新颖的方法，在 LLMs 中嵌入可学习的语言水印，以追踪和防止模型提取攻击。我们的方法通过向令牌频率分布中引入可控噪声来微妙地修改 LLM 的输出分布，嵌入可统计辨识的可控水印。我们利用统计假设检验和信息理论，特别关注库尔巴克 - 莱布勒散度，有效区分原始分布和修改分布。我们的水印方法在鲁棒性和输出质量之间达到了微妙的平衡，保持了较低的误报率和漏报率，并且保留了 LLM 的原始性能。

Apr, 2024

大型语言模型的教学指纹

大规模语言模型的高昂训练成本使指纹识别模型保护知识产权成为必要，同时确保下游用户和开发者遵守许可条款，本研究提出了一种针对语言模型的指纹识别的试点研究，作为一种非常轻量级的指令调整，以提供模型许可者的身份验证，然而仅在密钥存在时才使语言模型生成特定文本，通过对 11 种常用的语言模型进行测试，结果显示该方法轻巧且不影响模型的正常行为，同时防止了许可者的过度声明，对指纹猜测和参数高效训练具有鲁棒性，并支持与 MIT 许可证类似的多阶段指纹识别。

Jan, 2024

水印技术使语言模型放射性增强

调查了 LLM 生成的文本的辐射性，即是否可能检测到这种输入被用作训练数据；与成员推断等传统方法相比，我们发现水印训练数据留下的痕迹更容易检测且更可靠；我们将污染程度与水印的鲁棒性、在训练集中所占比例和微调过程联系起来；我们特别证明，即使仅有 5％的训练文本带有水印，也能以高置信度（p 值 < 1e-5）检测到在带有水印的合成指令上进行训练；因此，最初设计用于检测机器生成文本的 LLM 水印技术可以轻松识别是否使用带有水印的 LLM 的输出来进行微调。

Feb, 2024