透过对抗性压缩的视角重新思考 LLM 记忆化

Apr, 2024

透过对抗性压缩的视角重新思考 LLM 记忆化

Rethinking LLM Memorization through the Lens of Adversarial Compression

Avi Schwarzschild, Zhili Feng, Pratyush Maini, Zachary C. Lipton, J. Zico Kolter

TL;DR大型语言模型的记忆化问题对于数据使用提出了重要疑问，本文提出了一种用于评估记忆化的度量标准 Adversarial Compression Ratio (ACR)，通过对比模型生成字符串和原始字符串的长度，探讨了记忆化的界定和局限，并展示了 ACR 如何应用于监测遗忘和合规性，从而用作判断模型使用数据条款是否被违反的实用工具和法律手段。

Abstract

large language models (LLMs) trained on web-scale datasets raise substantial concerns regarding permissible data usage. One major question is whether these models "memorize" all their training data or they integr

large language models memorization adversarial compression ratio string compression data usage

发现论文，激发创造

神经语言模型记忆能力量化

这篇研究论文描述了大语言模型 (LMs) 如何通过增加模型容量、重复数据示例次数以及提示模型的上下文数量等因素持续增长来记忆其训练数据的程度。然而，该记忆过程会导致隐私泄露、降低数据质量并且存在不公平性问题，因此有减轻该问题的必要，尤其随着模型的规模持续增长，需要采取积极的对策。

Feb, 2022

通过学习不相似性策略缓解语言模型中的近似记忆

提出了一种利用强化学习（PPO）的框架，通过负相似度评分来针对近似记忆进行微调，有效地缓解了大型语言模型（LLMs）中的近似记忆问题，在保持生成样本的连贯性和流畅性的同时，具有鲁棒性，并且可以适应各种环境和情况。

May, 2023

基于压缩的 LLM 排名

我们将理解过程视为信息压缩，并提出了一种基于无损数据压缩的大型语言模型（LLMs）排序方法。我们使用五个大型语言模型作为压缩的先验，并比较它们在困难的自然语言处理任务中的性能，包括句子完成、问题回答和共指消解。实验结果表明，压缩比率和模型性能呈正相关，因此可以作为评估大型语言模型的通用指标。

Jun, 2024

大型语言模型中实体级记忆的量化与分析

大型语言模型通过精心设计的提示可以提取出其训练数据，这也带来了隐私风险。为了评估潜在的隐私风险，需要量化语言模型的记忆能力。本文提出了一个细粒度、基于实体级别的定义来量化记忆，并提供了一种从自回归语言模型中高效提取敏感实体的方法。实验结果显示，语言模型在实体级别上具有较强的记忆能力，并能够在部分泄露情况下重新生成训练数据。这些发现要求语言模型的训练者在模型记忆方面更加谨慎，采用记忆减轻技术以防止隐私侵犯。

Aug, 2023

通用大型语言模型中的记忆化

大型语言模型在记忆方面的挑战和机会，包括隐私、安全、版权等问题，并提出目前的研究方向。

Oct, 2023

羊驼对抗维昆纳：利用 LLMs 揭示 LLMs 的记忆

我们介绍了一种黑盒提示优化方法，利用攻击者 LLM 代理来揭示受害者代理中比直接使用训练数据作为提示目标模型所揭示的更高水平的记忆，我们使用迭代的拒绝抽样优化过程来找到具有两个主要特征的基于指令的提示，即 (1) 最小程度地与训练数据重叠，以避免直接向模型呈现解决方案；(2) 最大化受害模型输出与训练数据的重叠，旨在诱使受害模型输出训练数据，我们观察到，与基于前缀 - 后缀测量的基准相比，我们的基于指令的提示生成的输出与训练数据重叠度更高达 23.7%，我们的发现表明，(1) 基于指令的模型可以暴露出与其基础模型一样多的预训练数据，甚至更多；(2) 原始训练数据之外的上下文可以导致信息泄漏；(3) 使用其他 LLM 提出的指令可能会开辟一种新的自动攻击的途径，需要进一步研究和探索。代码可以在此 URL 找到。

Mar, 2024

LoMA：无损压缩的内存注意力

提出了一种新方法，即无损压缩记忆关注（LoMA）方法，可以根据一组压缩比将信息无损地压缩到特殊记忆令牌 KV 对中，实现资源消耗的减少，并取得了显著的结果。

Jan, 2024

大型语言模型记忆机制的多角度分析

大语言模型（LLMs）在各个领域展示了前所未有的性能，但其特殊行为之一 —— 记忆化 —— 仍缺乏解释，本研究通过多个角度全面探讨记忆化现象及其动态，并通过实验证实了模型大小、连续大小和上下文大小之间的记忆化关系，以及不同记忆化得分下句子的嵌入分布和解码动态，揭示了当模型开始生成记忆化或非记忆化句子时的边界效应，最后通过训练 Transformer 模型预测不同模型的记忆化，证明了通过上下文预测记忆化的可行性。

May, 2024

TCRA-LLM：基于令牌压缩检索的大规模语言模型，用于推理成本降低

使用自学生成的样本进行 Fine-tune，我们提出了两种方法进行文本压缩：摘要压缩和语义压缩。摘要压缩可以减少 65% 的检索令牌大小并提高 0.3% 的准确性，语义压缩可以将令牌大小减少 20%，但只有 1.6% 的准确性损失。

Oct, 2023

对于每个 (文本序列) 的独立性：改进大型语言模型中的记忆数据遗忘

通过新的度量衡、对抗攻击以及基于梯度上升和任务算术的两种新的遗忘方法，本研究提供了关于 LLMs 隐私保护和遗忘的新视角，并在大量 NLP 任务上进行了全面的性能评估。

May, 2024