大型语言模型记忆机制的多角度分析

May, 2024

大型语言模型记忆机制的多角度分析

A Multi-Perspective Analysis of Memorization in Large Language Models

Bowen Chen, Namgi Han, Yusuke Miyao

TL;DR大语言模型（LLMs）在各个领域展示了前所未有的性能，但其特殊行为之一 —— 记忆化 —— 仍缺乏解释，本研究通过多个角度全面探讨记忆化现象及其动态，并通过实验证实了模型大小、连续大小和上下文大小之间的记忆化关系，以及不同记忆化得分下句子的嵌入分布和解码动态，揭示了当模型开始生成记忆化或非记忆化句子时的边界效应，最后通过训练 Transformer 模型预测不同模型的记忆化，证明了通过上下文预测记忆化的可行性。

Abstract

large language models (LLMs), trained on massive corpora with billions of parameters, show unprecedented performance in various fields. Though surprised by their excellent performances, researchers also noticed some special behaviors of those LLMs. One of those behaviors is

large language models memorization model size embedding analysis transformer model

发现论文，激发创造

神经语言模型记忆能力量化

这篇研究论文描述了大语言模型 (LMs) 如何通过增加模型容量、重复数据示例次数以及提示模型的上下文数量等因素持续增长来记忆其训练数据的程度。然而，该记忆过程会导致隐私泄露、降低数据质量并且存在不公平性问题，因此有减轻该问题的必要，尤其随着模型的规模持续增长，需要采取积极的对策。

Feb, 2022

通用大型语言模型中的记忆化

大型语言模型在记忆方面的挑战和机会，包括隐私、安全、版权等问题，并提出目前的研究方向。

Oct, 2023

大型语言模型培训动态分析：防止过度拟合的记忆训练

研究了大型语言模型的训练和记忆过程，在不同设置下测量了数据集大小、学习率和模型大小对其记忆能力的影响，证明更大的语言模型更快地记忆训练数据，更容易在训练过程中避免过度拟合。同时，分析了不同词性的记忆动态，发现名词和数字是模型记忆单个训练例子的唯一标识符。这些发现有助于深入了解模型变大所带来的真正好处。

May, 2022

大型语言模型中的紧急和可预测记忆

通过对 Pythia 模型套件的记忆行为进行度量和分析，发现中间检查点是模型记忆行为的更好预测因素，同时提供了有关模型和数据记忆得分分布的新颖发现

Apr, 2023

大型语言模型输出的评估：话语和记忆

通过对九个流行的大型语言模型的各种生成输出进行经验评估，发现输出中包含的记忆文本比例、独特文本比例和总体输出质量存在关联性，其中高质量的输出中包含的记忆文本比例较高。并提出缓解策略和质量文本的评估方法。

Apr, 2023

背诵、重建、回忆：语言模型中的记忆作为多层次现象

以分类方式解析记忆化过程，并构建预测模型，发现不同因素根据分类方式对记忆化概率产生不同影响。

Jun, 2024

大型语言模型的指导下的文档记忆

利用大数据训练的 AI 模型在参数中存储着与文档相关的内容。本研究提出了一种基于文档记忆的架构，通过映射文档表示到记忆条目来追踪训练中的文档记忆。同时，引入了文档引导损失，增加带有文档记忆的文本的可能性，减少其他文档记忆的文本的可能性。实验结果表明，所提出的方法在生成文档相关内容时，在记忆条目和高召回率方面具有优势。

Jun, 2024

人类记忆和大型语言模型的方面

大型语言模型（LLMs）是巨大的人工神经网络，主要用于生成文本，但同时也提供了一个非常复杂的语言使用概率模型。我们调查了 LLMs 的记忆特性，并发现它与人类记忆的关键特征存在惊人的相似性，这一结果强烈暗示了人类记忆的生物特征对我们构建文本叙述的方式产生了影响。

Nov, 2023

LLM 们幻想本体工具吗？

大型语言模型能够部分地记忆本体论概念，并且记忆程度与概念在网络上的普及程度成正比。本研究还提出了新的度量方法，通过测量在不同提示重复、查询语言和确定性程度下产生的输出的一致性来估计语言模型中本体论信息的记忆程度。

Jan, 2024

大型语言模型中实体级记忆的量化与分析

大型语言模型通过精心设计的提示可以提取出其训练数据，这也带来了隐私风险。为了评估潜在的隐私风险，需要量化语言模型的记忆能力。本文提出了一个细粒度、基于实体级别的定义来量化记忆，并提供了一种从自回归语言模型中高效提取敏感实体的方法。实验结果显示，语言模型在实体级别上具有较强的记忆能力，并能够在部分泄露情况下重新生成训练数据。这些发现要求语言模型的训练者在模型记忆方面更加谨慎，采用记忆减轻技术以防止隐私侵犯。

Aug, 2023