大型语言模型培训动态分析：防止过度拟合的记忆训练

May, 2022

大型语言模型培训动态分析：防止过度拟合的记忆训练

Memorization Without Overfitting: Analyzing the Training Dynamics of Large Language Models

Kushal Tirumala, Aram H. Markosyan, Luke Zettlemoyer, Armen Aghajanyan

TL;DR研究了大型语言模型的训练和记忆过程，在不同设置下测量了数据集大小、学习率和模型大小对其记忆能力的影响，证明更大的语言模型更快地记忆训练数据，更容易在训练过程中避免过度拟合。同时，分析了不同词性的记忆动态，发现名词和数字是模型记忆单个训练例子的唯一标识符。这些发现有助于深入了解模型变大所带来的真正好处。

Abstract

Despite their wide adoption, the underlying training and memorization dynamics of very large language models is not well understood. We empirically study exact →

language models memorization dataset size learning rate over-fitting

发现论文，激发创造

大型语言模型记忆机制的多角度分析

大语言模型（LLMs）在各个领域展示了前所未有的性能，但其特殊行为之一 —— 记忆化 —— 仍缺乏解释，本研究通过多个角度全面探讨记忆化现象及其动态，并通过实验证实了模型大小、连续大小和上下文大小之间的记忆化关系，以及不同记忆化得分下句子的嵌入分布和解码动态，揭示了当模型开始生成记忆化或非记忆化句子时的边界效应，最后通过训练 Transformer 模型预测不同模型的记忆化，证明了通过上下文预测记忆化的可行性。

May, 2024

神经语言模型记忆能力量化

这篇研究论文描述了大语言模型 (LMs) 如何通过增加模型容量、重复数据示例次数以及提示模型的上下文数量等因素持续增长来记忆其训练数据的程度。然而，该记忆过程会导致隐私泄露、降低数据质量并且存在不公平性问题，因此有减轻该问题的必要，尤其随着模型的规模持续增长，需要采取积极的对策。

Feb, 2022

大型语言模型中的紧急和可预测记忆

通过对 Pythia 模型套件的记忆行为进行度量和分析，发现中间检查点是模型记忆行为的更好预测因素，同时提供了有关模型和数据记忆得分分布的新颖发现

Apr, 2023

揭开潜在记忆：评估大型语言模型中的数据泄露和记忆模式

该研究通过评估训练数据的统计特征对模型中的记忆编码产生的影响，重现了重复次数对记忆序列遗忘概率的对数标度关系，并发现即使没有后续接触，经过多次训练的数据仍然可以在训练过程中被揭示。由于这些潜在的记忆序列可能隐藏在模型的最终检查点上，这对数据隐私具有挑战性。为此，我们开发了一种通过考虑交叉熵损失来揭示这些潜在记忆序列的诊断测试。

Jun, 2024

通用大型语言模型中的记忆化

大型语言模型在记忆方面的挑战和机会，包括隐私、安全、版权等问题，并提出目前的研究方向。

Oct, 2023

大型语言模型中实体级记忆的量化与分析

大型语言模型通过精心设计的提示可以提取出其训练数据，这也带来了隐私风险。为了评估潜在的隐私风险，需要量化语言模型的记忆能力。本文提出了一个细粒度、基于实体级别的定义来量化记忆，并提供了一种从自回归语言模型中高效提取敏感实体的方法。实验结果显示，语言模型在实体级别上具有较强的记忆能力，并能够在部分泄露情况下重新生成训练数据。这些发现要求语言模型的训练者在模型记忆方面更加谨慎，采用记忆减轻技术以防止隐私侵犯。

Aug, 2023

记忆 Transformer

本文介绍了一种使用内部储存器实现直接读取并记忆新数据的语言模型，在多个基准测试和任务中展示了近似 kNN 查找技术，着重测试了代码和数学等领域，并证明了随着储存器大小的增加，性能将稳步提高。

Mar, 2022

基于大型语言模型中的文本、概率和隐藏状态的记忆洞察

通过比较存储和非存储之间的差异，我们提出了一种名为 ROME 的新方法，用于研究大型语言模型的记忆化能力。实验结果显示，包括词长、词性、词频、平均值和方差在内的多方面因素存在差异。

Mar, 2024

大型语言模型的事实记忆尺度定律

通过分析大型语言模型（LLM）事实知识和 LLM 记忆不同类型事实的行为的扩展规律，我们发现 LLMs 的事实知识容量与模型规模和训练周期呈线性和负指数关系，认为 LLMs 用于记忆全部公共事实在普通预训练设置下几乎不切实际。与此同时，我们发现 LLMs 能够推广未见事实知识，并且其扩展规律类似于普通预训练。我们还分析了 LLMs 事实记忆的兼容性和偏好，结果表明 LLMs 在以统一方式记忆冗余事实时遇到困难，并且仅当相关事实具有相同的方向和结构时，LLM 才能兼容地记忆它们。此外，LLM 更关注记忆更频繁和更困难的事实，并且后续的事实可以覆盖先前事实的记忆，这严重阻碍了低频事实的记忆。我们发现了 LLMs 事实知识学习的容量和特点，为 LLMs 事实知识增强提供了方向。

Jun, 2024

自然语言处理记忆化的实证研究

本文利用三种不同的 NLP 任务来验证长尾理论是否成立，实验结果表明，对于具有代表性的训练实例进行记忆比任意剔除训练实例更具有影响力，同时，还开发并实现了内部原因归因方法，具备较高程度的可信度。

Mar, 2022