理解大型语言模型中的记忆：动态、影响因素及其影响

Jul, 2024

理解大型语言模型中的记忆：动态、影响因素及其影响

Understanding Memorisation in LLMs: Dynamics, Influencing Factors, and Implications

Till Speicher, Mohammad Aflah Khan, Qinyuan Wu, Vedant Nanda, Soumi Das...

TL;DR本研究解决了大型语言模型（LLMs）记忆训练数据的程度及其对输出可靠性和隐私的影响。作者提出了一种实验框架，通过反复向LLMs展示随机字符串，从而分析模型行为，发现不同模型具有一致的记忆动态，并识别了影响记忆能力的因素及当地前缀和全局上下文的作用。这些发现对LLMs的研究和应用具有重要的影响。

Abstract

Understanding whether and to what extent Large Language Models (LLMs) have memorised training data has important implications for the reliability of their output and the privacy of their training data. In order to cleanly measure and disentangle →

发现论文，激发创造

神经语言模型记忆能力量化

这篇研究论文描述了大语言模型(LMs)如何通过增加模型容量、重复数据示例次数以及提示模型的上下文数量等因素持续增长来记忆其训练数据的程度。然而，该记忆过程会导致隐私泄露、降低数据质量并且存在不公平性问题，因此有减轻该问题的必要，尤其随着模型的规模持续增长，需要采取积极的对策。

Feb, 2022

大型语言模型培训动态分析：防止过度拟合的记忆训练

研究了大型语言模型的训练和记忆过程，在不同设置下测量了数据集大小、学习率和模型大小对其记忆能力的影响，证明更大的语言模型更快地记忆训练数据，更容易在训练过程中避免过度拟合。同时，分析了不同词性的记忆动态，发现名词和数字是模型记忆单个训练例子的唯一标识符。这些发现有助于深入了解模型变大所带来的真正好处。

May, 2022

大型语言模型中的紧急和可预测记忆

通过对Pythia模型套件的记忆行为进行度量和分析，发现中间检查点是模型记忆行为的更好预测因素，同时提供了有关模型和数据记忆得分分布的新颖发现

Apr, 2023

对齐的大型语言模型连续预训练中的遗忘现象研究

连续预训练中灾难性遗忘现象对于已经经过微调的大规模语言模型的影响及重复问题的挑战。

Jan, 2024

大型语言模型中表格数据的记忆与学习

通过引入不同的技术评估语言模型是否在训练过程中看到表格数据，揭示出大型语言模型对流行表格数据的实质性记忆，尽管这种记忆导致过拟合，但在新颖数据集上仍表现出非常优秀的性能，并且在语境中的统计学习能力被发现受到限制。

Apr, 2024

大型语言模型记忆机制的多角度分析

大语言模型（LLMs）在各个领域展示了前所未有的性能，但其特殊行为之一——记忆化——仍缺乏解释，本研究通过多个角度全面探讨记忆化现象及其动态，并通过实验证实了模型大小、连续大小和上下文大小之间的记忆化关系，以及不同记忆化得分下句子的嵌入分布和解码动态，揭示了当模型开始生成记忆化或非记忆化句子时的边界效应，最后通过训练Transformer模型预测不同模型的记忆化，证明了通过上下文预测记忆化的可行性。

May, 2024

量化LLM中上下文推理效应和记忆效应

我们提出了一个公理系统来定义和量化大型语言模型（LLM）用于语言生成的精确记忆和上下文推理效应，并将这些效应形式化为LLM编码的令牌/词之间的非线性相互作用。实验表明，记忆效应和上下文推理效应的明确区分使得可以直观地检查LLMs编码的详细推理模式。

May, 2024

记忆曲线的因果估计

该研究提出了一种新的、有原则的、高效的方法来估计语言模型中的记忆化，该方法利用经济学中的差异法设计，通过在训练过程中观察模型在一小部分实例上的行为，刻画了模型的记忆化特征，并发现较大模型的记忆化更强、更持久，受数据顺序和学习率的影响，并且较大模型的记忆化趋势可以从较小模型中预测。

Jun, 2024

揭开潜在记忆：评估大型语言模型中的数据泄露和记忆模式

该研究通过评估训练数据的统计特征对模型中的记忆编码产生的影响，重现了重复次数对记忆序列遗忘概率的对数标度关系，并发现即使没有后续接触，经过多次训练的数据仍然可以在训练过程中被揭示。由于这些潜在的记忆序列可能隐藏在模型的最终检查点上，这对数据隐私具有挑战性。为此，我们开发了一种通过考虑交叉熵损失来揭示这些潜在记忆序列的诊断测试。

Jun, 2024

揭示大型语言模型中的逐字记忆现象

本研究关注大型语言模型在逐字记忆方面的挑战，以及这一现象可能带来的法律和隐私问题。通过在受控环境中继续预训练并注入序列，发现逐字记忆需要非微不足道的重复，并且更高质量的模型检查点更可能进行逐字记忆。研究结果表明，逐字记忆与模型的整体能力密切相关，且现有的去记忆方法往往效果不佳，有可能影响模型质量。

Jul, 2024